авторегрессивное декодирование

Определение

Стандартный метод генерации текста в LLM, при котором токены вырабатываются последовательно, каждый следующий зависит от предыдущих. Это приводит к задержкам и плохой батчизации на этапе декодирования.

Где встречается

164. Какие trade-offs между разными архитектурами speculative decoding
212. Как работает speculative decoding с несколькими draft моделями
215. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
289. Как работает speculative decoding на уровне логитов, а не токенов
290. Что такое Chain-of-Thought без токенов (latent CoT) и как это реализовано
365. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
431. Почему LLM inference memory-bound, а не compute-bound
434. Как работает grouped-query attention (GQA) и как trade-off speedquality
436. В чем разница между prefill и decode stage в LLM инференсе
437. Почему decode stage плохо batchится
442. Что такое prefix caching и когда он эффективен
450. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
543. Как работает Whisper архитектурно для ASR (Automatic Speech Recognition)
545. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
564. Как работает модели типа Kosmos-2 (grounding объектов на изображении)
640. Как работает Multi-query attention (MQA) для long context
838. Как speculative decoding ускоряет inference (детально)
845. Как работают CUDA graphs и когда их использовать
800+ вопросов
69. Реализовать deliberate decoding
220. Настроить wave decoding для коротких ответов

авторегрессивное декодирование

авторегрессивное декодирование

Определение

Где встречается

Навигация

авторегрессивное декодирование

авторегрессивное декодирование

Определение

Где встречается

Навигация