H2O

Определение

Метод сжатия KV cache, сохраняющий только токены с наибольшими оценками внимания для уменьшения потребления памяти.