FP8
FP8
Определение
8-битный формат чисел с плавающей точкой с подвариантами E4M3 (высокая точность) и E5M2 (больший диапазон). Используется на GPU H100 для ускорения матричных умножений (GEMM) в инференсе, обеспечивая пиковую производительность до 1979 TFLOPS.
Где встречается
- 303. Как работают Tensor Cores в H100B200 и для чего они нужны
- 458. Что такое FP8 инференс на H100 (Transformer Engine)
- 460. Как работает tensor parallelism с FP8 в vLLM
- 650. Что такое memory-efficient attention для long context на 8x H100
- 703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
- 706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
- 844. Как работает FlashAttention-3 математически
- Практика
- 800+ вопросов
- 214. Реализовать FP8 инференс на H100