8-bit quantization
8-bit quantization
Определение
Техника сжатия модели путём представления весов и/или KV-кэша в 8-битном целочисленном формате, что уменьшает требования к памяти и ускоряет декодирование при работе с длинным контекстом.
Где встречается
- 77. Как вы оптимизируете embedding генерацию для большого количества документов
- 161. Как вы измеряете эффективность speculative decoding
- 211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
- 277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
- 312. Как работает FP8 quantization на H100 (Transformer Engine)
- 325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели
- 423. Как работает tensor parallelism для LLM training Чем отличается от инференса
- 433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
- 436. В чем разница между prefill и decode stage в LLM инференсе
- 440. Как работает speculative decoding Как выбрать draft модель
- 626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
- 631. Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)
- 800+ вопросов
- 59. Сравнить архитектуры на reasoning задачах
- 94. Реализовать failure injection для MoE router
- 215. Настроить expert parallelism для Mixtral