中文翻译暂不可用,显示俄语原文。

LLM streaming

LLM streaming

Определение

Техника инференса, позволяющая обрабатывать последовательности произвольной длины без перезапуска за счёт вытеснения старых токенов из KV cache и сохранения attention sink. Обеспечивает бесконечный контекст и низкую задержку.

Где встречается

Навигация