авторегрессивное декодирование
авторегрессивное декодирование
Определение
Стандартный метод генерации текста в LLM, при котором токены вырабатываются последовательно, каждый следующий зависит от предыдущих. Это приводит к задержкам и плохой батчизации на этапе декодирования.
Где встречается
- 164. Какие trade-offs между разными архитектурами speculative decoding
- 212. Как работает speculative decoding с несколькими draft моделями
- 215. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
- 277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
- 289. Как работает speculative decoding на уровне логитов, а не токенов
- 290. Что такое Chain-of-Thought без токенов (latent CoT) и как это реализовано
- 365. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
- 431. Почему LLM inference memory-bound, а не compute-bound
- 434. Как работает grouped-query attention (GQA) и как trade-off speedquality
- 436. В чем разница между prefill и decode stage в LLM инференсе
- 437. Почему decode stage плохо batchится
- 442. Что такое prefix caching и когда он эффективен
- 450. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
- 543. Как работает Whisper архитектурно для ASR (Automatic Speech Recognition)
- 545. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
- 564. Как работает модели типа Kosmos-2 (grounding объектов на изображении)
- 640. Как работает Multi-query attention (MQA) для long context
- 838. Как speculative decoding ускоряет inference (детально)
- 845. Как работают CUDA graphs и когда их использовать
- 800+ вопросов
- 69. Реализовать deliberate decoding
- 220. Настроить wave decoding для коротких ответов