InfLLM

Определение

InfLLM — модель для работы с длинными контекстами, использующая selective attention и memory bank важных токенов, обновляемый в процессе генерации. Также применяет sliding window и attention sink для оптимизации обработки больших последовательностей.

Где встречается

283. Что такое selective attention в контексте long context обработки
433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
800+ вопросов

InfLLM

InfLLM

Определение

Где встречается

Навигация