KV cache
KV cache
Определение
KV cache (key-value cache) — это механизм кэширования ключей и значений внимания в трансформерах, который позволяет избежать повторных вычислений при генерации последовательности. Однако при работе с очень длинными контекстами (например, 1 млн токенов) KV cache растет квадратично относительно длины контекста, что создает фундаментальные ограничения по памяти и вычислительной сложности. Это делает fine-tuning моделей на сверхдлинных контекстах крайне ресурсоемким.