Paged Attention
Paged Attention
Определение
Алгоритм управления KV-кэшем в LLM-серверах (vLLM), разбивающий внимание на блоки (страницы) и использующий таблицу страниц для снижения фрагментации памяти и задержки инференса.
Где встречается
- 7. Как вы уменьшаете latency RAG-системы (время ответа)
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 64. Как вы обеспечиваете низкую задержку (500ms) для LLM
- 72. OpenAI vs Антропик vs Groq vs Self-hosted — что выбираете
- 81. Как бы вы спроектировали систему для 1000 одновременных пользователей чат-бота с RAG
- 83. Как спроектировать систему, где LLM должна работать с конфиденциальными данными (медицина, финансы)
- 87. Как вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов
- 88. Как бы вы добавили отмену (cancellation) для длительных LLM операций
- 89. Как вы спроектируете систему, которая может переключаться между разными LLM провайдерами без даунтайма
- 157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
- 159. Как speculative decoding взаимодействует с KV cache
- 201. Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI
- 202. Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма
- 203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
- 205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
- 206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать
- 207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
- 210. Что такое chunked prefill и зачем он нужен
- 218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 220. Как вы выбираете между online и batch инференсом для LLM
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
- 302. Что такое warp divergence в CUDA и как он влияет на attention
- 304. Что такое FlashAttention с точки зрения CUDA programming
- 310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
- 311. Что такое CUDA graphs и как они ускоряют LLM инференс
- 317. Что такое MLIR и как он используется в IREETensorRT-LLM
- 318. TensorRT-LLM vs vLLM — сравнение для production deployment.
- 320. Что такое ONNX Runtime и когда он выгоден для LLM
- 403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
- 433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
- 434. Как работает grouped-query attention (GQA) и как trade-off speedquality
- 436. В чем разница между prefill и decode stage в LLM инференсе
- 437. Почему decode stage плохо batchится
- 438. Что такое continuous batching Как реализовано в vLLM
- 442. Что такое prefix caching и когда он эффективен
- 447. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
- 452. Как вы управляете memory fragmentation при длительном раннинге LLM сервера
- 453. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 455. Как вы выбираете между online и batch инференсом для LLM
- 458. Что такое FP8 инференс на H100 (Transformer Engine)