KV-cache reuse
KV-cache reuse
Определение
Техника ускорения инференса, при которой кэш ключей и значений предыдущих шагов сохраняется и переиспользуется для общих частей промпта в многошаговых диалогах.
Где встречается
- 157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
- 206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать
- 456. Что такое Medusa (multiple heads) для speculative decoding
- 800+ вопросов