Поиск
- wikistatic batching
…Менее эффективен, чем continuous batching, особенно для decode stage. ## Где встречается - [[201. Что такое continuous batching и как оно отличается…
- answerЧто такое continuous batching и как оно влияет на throughput?
…Определение continuous batching **[[Вики/continuous batching\|Continuous batching]]** ([[Вики/continuous batching\|непрерывный батчинг]]) — подход, при котором [[Вики/Planner\|планировщик]] на…
- wikidecode
…Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI|201. Что такое continuous…
- answerЧто такое continuous batching и как оно отличается от static batching? Как это реализовано в vLLM/TGI?
…Принцип Continuous Batching (In-flight Batching) [[Вики/continuous batching\|Continuous batching]] также называют [[Вики/continuous batching\|in-flight batching]] или…
- wikicontinuous batching
# continuous batching ## Определение Метод батчевой обработки при инференсе LLM, при котором новые запросы могут динамически добавляться, а завершённые удаляться на…
- wikiScheduler policy
…Используется в continuous batching. ## Где встречается - [[438. Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching…
- wikiOpenAI Triton Inference Server
# OpenAI Triton Inference Server ## Определение Сервер инференса, позволяющий реализовать кастомные планировщики для continuous batching и оптимизации вывода моделей. ## Где встречается…
- wikiBatching timeout
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
- answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)? ## Краткий тезис **batching|Continuous batching** — это техника динамического формирования…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить continuous batching в vLLM и измерить прирост пропускной способности
…Цель задачи Научиться включать и настраивать механизм [[Вики/continuous batching\|continuous batching]] в vLLM (vLLM) для инференса больших языковых моделей…
- wikimixed batch
…Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI|201. Что такое continuous…
- wikiEOS token
…Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching Как реализовано в vLLM]] - [[467. Что такое…
- wikiLightLLM
…Что такое continuous batching и как оно влияет на throughput|843. Что такое continuous batching и как оно влияет на…
- answerЧто такое continuous batching? Как реализовано в vLLM?
…Что такое continuous batching? Как реализовано в vLLM? ## Краткий тезис **batching|Continuous batching** (batching|непрерывная пакетная обработка) — это техника инференса…
- wikiprefill stage
…Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI|201. Что такое continuous…
- wikiPlanner
…Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI|201. Что такое continuous…
- answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)? ## Краткий тезис **batching|Continuous batching** (batching|непрерывный батчинг) — техника…
- wikiKV cache manager
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
- wikioffline batch inference
…Что такое continuous batching и как оно влияет на throughput|843. Что такое continuous batching и как оно влияет на…
- wikibatch matrix multiplication
…Что такое continuous batching и как оно влияет на throughput|843. Что такое continuous batching и как оно влияет на…
- wikiBlock-based allocation
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
- wikiWaiting queue
…Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching Как реализовано в vLLM]] - [[447. Как работает…
- wikistatic memory allocation
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|453. Как работает continuous batching в TGI (Hugging Face…
- wikiRunning queue
…Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching Как реализовано в vLLM]] - [[447. Как работает…
- wikithrashing
…Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI|201. Что такое continuous…
- wikiPriority
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|453. Как работает continuous batching в TGI (Hugging Face…
- answerПочему decode stage плохо batchится?
…Static batching усугубляет ситуацию за счёт синхронизации по самому длинному запросу. Continuous batching — обязательный стандарт для inference серверов, но он…
- wikipreemption
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
- wikitoken-level scheduler
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|453. Как работает continuous batching в TGI (Hugging Face…
- wikiMemory Overhead
…Что такое continuous batching и как оно влияет на throughput|843. Что такое continuous batching и как оно влияет на…
- wikiPaged Attention
…Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI|201. Что такое continuous…
- answerКак работает scheduler в vLLM? Какие алгоритмы выбора запросов?
…Continuous batching и роль scheduler'а **[[Вики/continuous batching\|Continuous batching]]** — ключевая особенность [[Вики/Paged Attention\|vLLM]]. В традиционном статическом…
- answerКак вы дебажите низкую GPU utilization (например, 40% на A100)?
…Решения - Внедрить [[Вики/continuous batching\|continuous batching]] (поддерживается в vLLM, TensorRT-LLM). - Настроить [[Вики/continuous batching\|dynamic batching]] в inference…
- wikiFIFO
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|453. Как работает continuous batching в TGI (Hugging Face…
- wikiGPU utilization
…Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching Как реализовано в vLLM]] - [[459. Как вы…
- wikimemory fragmentation
…Что такое continuous batching и как оно влияет на throughput|843. Что такое continuous batching и как оно влияет на…
- wikispeculative decoding
…Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI|201. Что такое continuous…
- wikimax-num-batched-tokens
# max-num-batched-tokens ## Определение Параметр vLLM, ограничивающий количество токенов в одном батче для continuous batching. ## Где встречается - [[Практика|Практика…
- wikipipeline bubbles
…Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching Как реализовано в vLLM]] - [[840. Когда tensor…
- wikiiteration
# iteration ## Определение Один шаг генерации токена для всех активных запросов в continuous batching. Также может обозначать повторение шага в цикле…
- wikiTGI
# TGI ## Определение Сервер инференса от Hugging Face для LLM с поддержкой streaming, continuous batching и отмены операций. Оптимизирован для production…
- wikiiteration-level scheduling
# iteration-level scheduling ## Определение Механизм планирования на уровне итераций, лежащий в основе continuous batching в vLLM. Позволяет управлять батчем на…
- wikithroughput
…Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI|201. Что такое continuous…
- wikiprefix caching
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
- answerЧто такое chunked prefill и зачем он нужен?
…Реализация в популярных фреймворках [[Вики/VLLM\|vLLM]] Использует [[Вики/continuous batching\|continuous batching]] и **prefix caching**, что частично решает ту…
- answerПочему vLLM быстрее TGI (Hugging Face Text Generation Inference)?
…Continuous Batching — агрессивное планирование **[[Вики/continuous batching\|Continuous Batching]]** (также «[[Вики/continuous batching\|iteration-level scheduling]]») — это техника, при которой…
- answerКак вы деплоите LLM с TensorRT-LLM в production?
…Triton с TensorRT-LLM backend использует [[Вики/continuous batching\|dynamic batching]] на уровне sequence slots: - При поступлении запроса ему назначается…
- wikichunked prefill
…Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching Как реализовано в vLLM]] - [[446. Что такое…
- wikisimulation
…Что такое continuous batching и как оно влияет на throughput|843. Что такое continuous batching и как оно влияет на…
- wikifairness scheduling
…Что такое continuous batching и как оно влияет на throughput|843. Что такое continuous batching и как оно влияет на…