prefix caching
prefix caching
Определение
Кэширование KV-кэша для общих префиксов промпта (например, system prompt), позволяющее переиспользовать вычисления и ускорить TTFT.
Где встречается
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 64. Как вы обеспечиваете низкую задержку (500ms) для LLM
- 157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
- 161. Как вы измеряете эффективность speculative decoding
- 164. Какие trade-offs между разными архитектурами speculative decoding
- 206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать
- 210. Что такое chunked prefill и зачем он нужен
- 211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
- 218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 220. Как вы выбираете между online и batch инференсом для LLM
- 403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
- 436. В чем разница между prefill и decode stage в LLM инференсе
- 442. Что такое prefix caching и когда он эффективен
- 446. Что такое chunked prefill и зачем он нужен
- 453. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 642. Как вы реализуете KV cache для 1M токенов на 8x H100
- 827. Какие есть стратегии распределённого кэширования для LLM (Redis Cluster, Memcached, Hazelcast)
- 836. Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)
- 837. Как работает paged attention (детально)
- 842. Как работает prefix caching и prompt caching у провайдеров
- 848. Как работает динамическое бэтчирование в TGI vs vLLM
- Практика
- 800+ вопросов