English translation is not available yet. Showing Russian content.

LLM streaming

LLM streaming

Определение

Техника инференса, позволяющая обрабатывать последовательности произвольной длины без перезапуска за счёт вытеснения старых токенов из KV cache и сохранения attention sink. Обеспечивает бесконечный контекст и низкую задержку.

Где встречается

Навигация