English translation is not available yet. Showing Russian content.
LLM streaming
LLM streaming
Определение
Техника инференса, позволяющая обрабатывать последовательности произвольной длины без перезапуска за счёт вытеснения старых токенов из KV cache и сохранения attention sink. Обеспечивает бесконечный контекст и низкую задержку.
Где встречается
- 286. Как вы детектируете и фиксите attention sinks в длинных контекстах
- 446. Что такое chunked prefill и зачем он нужен
- 648. Что такое streaming LLM для бесконечного контекста (техника rollback)
- 800+ вопросов