English translation is not available yet. Showing Russian content.
Per-token quantization
Per-token quantization
Определение
Метод квантования, при котором для каждого токена используются отдельные параметры масштабирования, что позволяет точнее представлять распределение значений и уменьшить потери точности.