8-bit quantization

Определение

Техника сжатия модели путём представления весов и/или KV-кэша в 8-битном целочисленном формате, что уменьшает требования к памяти и ускоряет декодирование при работе с длинным контекстом.

Где встречается

77. Как вы оптимизируете embedding генерацию для большого количества документов
161. Как вы измеряете эффективность speculative decoding
211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
312. Как работает FP8 quantization на H100 (Transformer Engine)
325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели
423. Как работает tensor parallelism для LLM training Чем отличается от инференса
433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
436. В чем разница между prefill и decode stage в LLM инференсе
440. Как работает speculative decoding Как выбрать draft модель
626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
631. Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)
800+ вопросов
59. Сравнить архитектуры на reasoning задачах
94. Реализовать failure injection для MoE router
215. Настроить expert parallelism для Mixtral

8-bit quantization

8-bit quantization

Определение

Где встречается

Навигация