speculative decoding

Определение

Метод ускорения инференса LLM, при котором маленькая модель (draft) генерирует черновик, а большая модель (target) его верифицирует, позволяя достичь ускорения в 1.5-3x.

Где встречается

61. Как вы разворачиваете LLM в production (self-hosted)
64. Как вы обеспечиваете низкую задержку (500ms) для LLM
70. Как вы снижаете стоимость LLM в production на 50%+
139. Как вы оцениваете cost-effectiveness LLM-пайплайна
157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
158. Что такое EAGLE-3 и чем он отличается от стандартного speculative decoding
159. Как speculative decoding взаимодействует с KV cache
160. Что такое Variational Speculative Decoding (VSD) и чем он революционен
161. Как вы измеряете эффективность speculative decoding
164. Какие trade-offs между разными архитектурами speculative decoding
201. Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI
202. Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма
205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
210. Что такое chunked prefill и зачем он нужен
211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
212. Как работает speculative decoding с несколькими draft моделями
215. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
220. Как вы выбираете между online и batch инференсом для LLM
289. Как работает speculative decoding на уровне логитов, а не токенов
302. Что такое warp divergence в CUDA и как он влияет на attention
304. Что такое FlashAttention с точки зрения CUDA programming
311. Что такое CUDA graphs и как они ускоряют LLM инференс
425. Как работает sequence parallelism в контексте LLM
435. Почему MoE (Mixture of Experts) быстрее dense модели при инференсе
436. В чем разница между prefill и decode stage в LLM инференсе
437. Почему decode stage плохо batchится
440. Как работает speculative decoding Как выбрать draft модель
441. EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.
442. Что такое prefix caching и когда он эффективен
446. Что такое chunked prefill и зачем он нужен
450. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
453. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
454. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
455. Как вы выбираете между online и batch инференсом для LLM
456. Что такое Medusa (multiple heads) для speculative decoding
458. Что такое FP8 инференс на H100 (Transformer Engine)
459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
544. Как вы строите real-time voice agent с latency 500ms

speculative decoding

speculative decoding

Определение

Где встречается

Навигация

speculative decoding

speculative decoding

Определение

Где встречается

Навигация