FP8 quantization

Определение

Метод квантизации (квантования) весов и активаций модели до 8-битного формата с плавающей точкой. Позволяет вдвое ускорить матричные умножения на H100 и уменьшить использование памяти с компромиссом по точности.

Где встречается

312. Как работает FP8 quantization на H100 (Transformer Engine)
642. Как вы реализуете KV cache для 1M токенов на 8x H100
800+ вопросов
214. Реализовать FP8 инференс на H100

FP8 quantization

FP8 quantization

Определение

Где встречается

Навигация