Per-token quantization

Per-token quantization

Определение

Метод квантования, при котором для каждого токена используются отдельные параметры масштабирования, что позволяет точнее представлять распределение значений и уменьшить потери точности.

Где встречается

Навигация