Оглавление
Вопросы
Практика
Вики
Материалы сообщества
Тесты
Поиск

✈Telegram @ai_varo

…

Оглавление/Вики/prefix caching

prefix caching

prefix caching

Определение

Кэширование KV-кэша для общих префиксов промпта (например, system prompt), позволяющее переиспользовать вычисления и ускорить TTFT.

Где встречается

61. Как вы разворачиваете LLM в production (self-hosted)
64. Как вы обеспечиваете низкую задержку (500ms) для LLM
157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
161. Как вы измеряете эффективность speculative decoding
164. Какие trade-offs между разными архитектурами speculative decoding
206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать
210. Что такое chunked prefill и зачем он нужен
211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
220. Как вы выбираете между online и batch инференсом для LLM
403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
436. В чем разница между prefill и decode stage в LLM инференсе
442. Что такое prefix caching и когда он эффективен
446. Что такое chunked prefill и зачем он нужен
453. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
642. Как вы реализуете KV cache для 1M токенов на 8x H100
827. Какие есть стратегии распределённого кэширования для LLM (Redis Cluster, Memcached, Hazelcast)
836. Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)
837. Как работает paged attention (детально)
842. Как работает prefix caching и prompt caching у провайдеров
848. Как работает динамическое бэтчирование в TGI vs vLLM
Практика
800+ вопросов

Навигация

Индекс терминов
Индекс разборов
Оглавление