中文翻译暂不可用,显示俄语原文。

8-bit quantization

8-bit quantization

Определение

Техника сжатия модели путём представления весов и/или KV-кэша в 8-битном целочисленном формате, что уменьшает требования к памяти и ускоряет декодирование при работе с длинным контекстом.

Где встречается

Навигация