中文翻译暂不可用,显示俄语原文。
InfLLM
InfLLM
Определение
InfLLM — модель для работы с длинными контекстами, использующая selective attention и memory bank важных токенов, обновляемый в процессе генерации. Также применяет sliding window и attention sink для оптимизации обработки больших последовательностей.
Где встречается
- 283. Что такое selective attention в контексте long context обработки
- 433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
- 800+ вопросов