per-channel scaling
per-channel scaling
Определение
Метод квантования, при котором каждый канал нейронной сети имеет собственный коэффициент масштабирования, что повышает точность по сравнению с per-tensor scaling.
Где встречается
- 458. Что такое FP8 инференс на H100 (Transformer Engine)
- 642. Как вы реализуете KV cache для 1M токенов на 8x H100