Per-token quantization
Per-token quantization
Определение
Метод квантования, при котором для каждого токена используются отдельные параметры масштабирования, что позволяет точнее представлять распределение значений и уменьшить потери точности.
Метод квантования, при котором для каждого токена используются отдельные параметры масштабирования, что позволяет точнее представлять распределение значений и уменьшить потери точности.