VLLM
VLLM
Определение
Библиотека для высокопроизводительного инференса LLM, использующая Paged Attention и continuous batching для эффективного использования GPU памяти и увеличения пропускной способности.
Где встречается
- 7. Как вы уменьшаете latency RAG-системы (время ответа)
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 62. Какие метрики вы мониторите для LLM в production
- 64. Как вы обеспечиваете низкую задержку (500ms) для LLM
- 70. Как вы снижаете стоимость LLM в production на 50%+
- 109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production
- 157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
- 159. Как speculative decoding взаимодействует с KV cache
- 161. Как вы измеряете эффективность speculative decoding
- 164. Какие trade-offs между разными архитектурами speculative decoding
- 202. Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма
- 203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
- 205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
- 206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать
- 207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
- 210. Что такое chunked prefill и зачем он нужен
- 211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
- 216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
- 218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 219. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
- 220. Как вы выбираете между online и batch инференсом для LLM
- 244. Как вы проектируете backpressure в LLM serving системе
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
- 302. Что такое warp divergence в CUDA и как он влияет на attention
- 304. Что такое FlashAttention с точки зрения CUDA programming
- 305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
- 310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
- 311. Что такое CUDA graphs и как они ускоряют LLM инференс
- 318. TensorRT-LLM vs vLLM — сравнение для production deployment.
- 320. Что такое ONNX Runtime и когда он выгоден для LLM
- 400. Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофиче...
- 403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
- 409. Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes
- 411. Как вы проектируете backpressure в LLM serving системе
- 414. Как вы проектируете multi-region active-active для LLM API
- 421. Как вы проектируете disaster recovery для LLM системы при сбое региона
- 425. Как работает sequence parallelism в контексте LLM
- 429. Что такое end-to-end backpressure в LLM пайплайне и как его реализовать
- 432. Как работает FlashAttention-3 технически Чем отличается от FA2
- 433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать