English translation is not available yet. Showing Russian content.

8-bit quantization

8-bit quantization

Определение

Техника сжатия модели путём представления весов и/или KV-кэша в 8-битном целочисленном формате, что уменьшает требования к памяти и ускоряет декодирование при работе с длинным контекстом.

Где встречается

Навигация