LLM streaming

LLM streaming

Определение

Техника инференса, позволяющая обрабатывать последовательности произвольной длины без перезапуска за счёт вытеснения старых токенов из KV cache и сохранения attention sink. Обеспечивает бесконечный контекст и низкую задержку.

Где встречается

Навигация