KV cache compression

KV cache compression

Определение

Методы уменьшения размера кэша ключей и значений (GQA, MQA, квантование, обрезание) для снижения потребления памяти и ускорения инференса LLM.

Где встречается

Навигация