中文翻译暂不可用,显示俄语原文。
LLM streaming
LLM streaming
Определение
Техника инференса, позволяющая обрабатывать последовательности произвольной длины без перезапуска за счёт вытеснения старых токенов из KV cache и сохранения attention sink. Обеспечивает бесконечный контекст и низкую задержку.
Где встречается
- 286. Как вы детектируете и фиксите attention sinks в длинных контекстах
- 446. Что такое chunked prefill и зачем он нужен
- 648. Что такое streaming LLM для бесконечного контекста (техника rollback)
- 800+ вопросов