Quantization

Quantization

Определение

Снижение точности представления чисел (весов или активаций) модели для уменьшения её размера и ускорения инференса. Применяется как для сжатия эмбеддингов в RAG, так и для оптимизации LLM на этапе вывода.

Где встречается

Навигация