Self-Speculative Decoding
Self-Speculative Decoding
Определение
Метод ускорения декодирования, при котором target модель использует дополнительные головы (например, Medusa) для предсказания нескольких токенов параллельно без отдельной draft-модели.
Где встречается
- 157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
- 158. Что такое EAGLE-3 и чем он отличается от стандартного speculative decoding
- 159. Как speculative decoding взаимодействует с KV cache
- 160. Что такое Variational Speculative Decoding (VSD) и чем он революционен
- 164. Какие trade-offs между разными архитектурами speculative decoding
- 205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
- 212. Как работает speculative decoding с несколькими draft моделями
- 289. Как работает speculative decoding на уровне логитов, а не токенов
- 440. Как работает speculative decoding Как выбрать draft модель
- 441. EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.
- 450. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
- 456. Что такое Medusa (multiple heads) для speculative decoding
- 838. Как speculative decoding ускоряет inference (детально)
- Практика
- 800+ вопросов