continuous batching
continuous batching
Определение
Метод батчевой обработки при инференсе LLM, при котором новые запросы могут динамически добавляться, а завершённые удаляться на уровне токенов. Это повышает утилизацию GPU и пропускную способность по сравнению со static batching.
Где встречается
- 7. Как вы уменьшаете latency RAG-системы (время ответа)
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 64. Как вы обеспечиваете низкую задержку (500ms) для LLM
- 81. Как бы вы спроектировали систему для 1000 одновременных пользователей чат-бота с RAG
- 157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
- 201. Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI
- 202. Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма
- 203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
- 205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
- 206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать
- 207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
- 210. Что такое chunked prefill и зачем он нужен
- 218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 220. Как вы выбираете между online и batch инференсом для LLM
- 244. Как вы проектируете backpressure в LLM serving системе
- 305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
- 310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
- 311. Что такое CUDA graphs и как они ускоряют LLM инференс
- 317. Что такое MLIR и как он используется в IREETensorRT-LLM
- 318. TensorRT-LLM vs vLLM — сравнение для production deployment.
- 319. Как работает XLA (Accelerated Linear Algebra) для LLM на TPU
- 320. Что такое ONNX Runtime и когда он выгоден для LLM
- 403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
- 411. Как вы проектируете backpressure в LLM serving системе
- 436. В чем разница между prefill и decode stage в LLM инференсе
- 437. Почему decode stage плохо batchится
- 438. Что такое continuous batching Как реализовано в vLLM
- 440. Как работает speculative decoding Как выбрать draft модель
- 441. EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.
- 442. Что такое prefix caching и когда он эффективен
- 446. Что такое chunked prefill и зачем он нужен
- 447. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
- 452. Как вы управляете memory fragmentation при длительном раннинге LLM сервера
- 453. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 455. Как вы выбираете между online и batch инференсом для LLM
- 458. Что такое FP8 инференс на H100 (Transformer Engine)
- 459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
- 467. Что такое packing sequences и зачем он нужен
- 476. Как работает packing для variable-length sequences в FSDP
- 544. Как вы строите real-time voice agent с latency 500ms