StreamingLLM

Определение

Техника для работы с бесконечным контекстом: сохраняет начальные якорные токены и последнее окно, а остальные отбрасывает для сжатия KV cache.