中文翻译暂不可用,显示俄语原文。
Memory Overhead
Memory Overhead
Определение
Дополнительный расход памяти, необходимый для хранения KV-кэша вспомогательной модели (draft) при speculative decoding. В Independent Draft может достигать 2x от базового.
Где встречается
- 164. Какие trade-offs между разными архитектурами speculative decoding
- 441. EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.
- 843. Что такое continuous batching и как оно влияет на throughput
- 800+ вопросов