StreamingLLM
StreamingLLM
Определение
Техника для работы с бесконечным контекстом: сохраняет начальные якорные токены и последнее окно, а остальные отбрасывает для сжатия KV cache.
Где встречается
- 433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
- 626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
- 631. Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)
- 642. Как вы реализуете KV cache для 1M токенов на 8x H100