FP8 quantization
FP8 quantization
Определение
Метод квантизации (квантования) весов и активаций модели до 8-битного формата с плавающей точкой. Позволяет вдвое ускорить матричные умножения на H100 и уменьшить использование памяти с компромиссом по точности.
Где встречается
- 312. Как работает FP8 quantization на H100 (Transformer Engine)
- 642. Как вы реализуете KV cache для 1M токенов на 8x H100
- 800+ вопросов
- 214. Реализовать FP8 инференс на H100