Token-level caching

Token-level caching

Определение

Кэширование отдельных токенов или коротких последовательностей для ускорения автопрогрессии в runtime LLM, снижая задержку генерации.

Где встречается

Навигация