中文翻译暂不可用,显示俄语原文。
KV cache compression
KV cache compression
Определение
Методы уменьшения размера кэша ключей и значений (GQA, MQA, квантование, обрезание) для снижения потребления памяти и ускорения инференса LLM.
Где встречается
- 437. Почему decode stage плохо batchится
- 642. Как вы реализуете KV cache для 1M токенов на 8x H100
- 800+ вопросов