KV-cache

Определение

Кэш ключей и значений внимания в трансформерах, ускоряющий генерацию за счёт избежания пересчёта для уже обработанных токенов.

Где встречается

55. Как вы измеряете стоимость (токены) агентской системы
61. Как вы разворачиваете LLM в production (self-hosted)
64. Как вы обеспечиваете низкую задержку (500ms) для LLM
80. Какие 3 книгикурса вы рекомендуете по production LLM
148. Как вы измеряете стоимость агента в production (не только токены)
152. В чем разница между Chain-of-Thought (CoT) и Latent Reasoning
157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
159. Как speculative decoding взаимодействует с KV cache
160. Что такое Variational Speculative Decoding (VSD) и чем он революционен
161. Как вы измеряете эффективность speculative decoding
201. Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI
202. Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма
203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать
207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
210. Что такое chunked prefill и зачем он нужен
211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
215. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
219. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
220. Как вы выбираете между online и batch инференсом для LLM
243. Как вы делаете blue-green deployment для RAG системы с zero downtime
251. Как вы деплоите LLM на spot instances в облаке
276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется
277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
278. Как работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций
281. Что такое sliding window attention и зачем он в Mistral
289. Как работает speculative decoding на уровне логитов, а не токенов
300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
304. Что такое FlashAttention с точки зрения CUDA programming
310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
317. Что такое MLIR и как он используется в IREETensorRT-LLM
318. TensorRT-LLM vs vLLM — сравнение для production deployment.
320. Что такое ONNX Runtime и когда он выгоден для LLM
382. Как вы проектируете canary deployment для LLM модели
389. Как вы делаем disaster recovery с RPO 1 минута
401. Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism

KV-cache

KV-cache

Определение

Где встречается

Навигация

KV-cache

KV-cache

Определение

Где встречается

Навигация