speculative decoding
speculative decoding
Определение
Метод ускорения инференса LLM, при котором маленькая модель (draft) генерирует черновик, а большая модель (target) его верифицирует, позволяя достичь ускорения в 1.5-3x.
Где встречается
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 64. Как вы обеспечиваете низкую задержку (500ms) для LLM
- 70. Как вы снижаете стоимость LLM в production на 50%+
- 139. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
- 158. Что такое EAGLE-3 и чем он отличается от стандартного speculative decoding
- 159. Как speculative decoding взаимодействует с KV cache
- 160. Что такое Variational Speculative Decoding (VSD) и чем он революционен
- 161. Как вы измеряете эффективность speculative decoding
- 164. Какие trade-offs между разными архитектурами speculative decoding
- 201. Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI
- 202. Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма
- 205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
- 207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
- 210. Что такое chunked prefill и зачем он нужен
- 211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
- 212. Как работает speculative decoding с несколькими draft моделями
- 215. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
- 218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 220. Как вы выбираете между online и batch инференсом для LLM
- 289. Как работает speculative decoding на уровне логитов, а не токенов
- 302. Что такое warp divergence в CUDA и как он влияет на attention
- 304. Что такое FlashAttention с точки зрения CUDA programming
- 311. Что такое CUDA graphs и как они ускоряют LLM инференс
- 425. Как работает sequence parallelism в контексте LLM
- 435. Почему MoE (Mixture of Experts) быстрее dense модели при инференсе
- 436. В чем разница между prefill и decode stage в LLM инференсе
- 437. Почему decode stage плохо batchится
- 440. Как работает speculative decoding Как выбрать draft модель
- 441. EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.
- 442. Что такое prefix caching и когда он эффективен
- 446. Что такое chunked prefill и зачем он нужен
- 450. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
- 453. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 454. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
- 455. Как вы выбираете между online и batch инференсом для LLM
- 456. Что такое Medusa (multiple heads) для speculative decoding
- 458. Что такое FP8 инференс на H100 (Transformer Engine)
- 459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
- 544. Как вы строите real-time voice agent с latency 500ms