H2O
H2O
Определение
Метод сжатия KV cache, сохраняющий только токены с наибольшими оценками внимания для уменьшения потребления памяти.
Где встречается
- 626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
- 642. Как вы реализуете KV cache для 1M токенов на 8x H100