KV-cache
KV-cache
Определение
Кэш ключей и значений внимания в трансформерах, ускоряющий генерацию за счёт избежания пересчёта для уже обработанных токенов.
Где встречается
- 55. Как вы измеряете стоимость (токены) агентской системы
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 64. Как вы обеспечиваете низкую задержку (500ms) для LLM
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 148. Как вы измеряете стоимость агента в production (не только токены)
- 152. В чем разница между Chain-of-Thought (CoT) и Latent Reasoning
- 157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
- 159. Как speculative decoding взаимодействует с KV cache
- 160. Что такое Variational Speculative Decoding (VSD) и чем он революционен
- 161. Как вы измеряете эффективность speculative decoding
- 201. Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI
- 202. Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма
- 203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
- 205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
- 206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать
- 207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
- 210. Что такое chunked prefill и зачем он нужен
- 211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
- 215. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
- 216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
- 218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 219. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
- 220. Как вы выбираете между online и batch инференсом для LLM
- 243. Как вы делаете blue-green deployment для RAG системы с zero downtime
- 251. Как вы деплоите LLM на spot instances в облаке
- 276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется
- 277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
- 278. Как работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций
- 281. Что такое sliding window attention и зачем он в Mistral
- 289. Как работает speculative decoding на уровне логитов, а не токенов
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
- 304. Что такое FlashAttention с точки зрения CUDA programming
- 310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
- 317. Что такое MLIR и как он используется в IREETensorRT-LLM
- 318. TensorRT-LLM vs vLLM — сравнение для production deployment.
- 320. Что такое ONNX Runtime и когда он выгоден для LLM
- 382. Как вы проектируете canary deployment для LLM модели
- 389. Как вы делаем disaster recovery с RPO 1 минута
- 401. Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism