LLM streaming

Определение

Техника инференса, позволяющая обрабатывать последовательности произвольной длины без перезапуска за счёт вытеснения старых токенов из KV cache и сохранения attention sink. Обеспечивает бесконечный контекст и низкую задержку.

Где встречается

286. Как вы детектируете и фиксите attention sinks в длинных контекстах
446. Что такое chunked prefill и зачем он нужен
648. Что такое streaming LLM для бесконечного контекста (техника rollback)
800+ вопросов

LLM streaming

LLM streaming

Определение

Где встречается

Навигация