Поиск

  • wikistatic batching

    …Менее эффективен, чем continuous batching, особенно для decode stage. ## Где встречается - [[201. Что такое continuous batching и как оно отличается…

  • answerЧто такое continuous batching и как оно влияет на throughput?

    …Определение continuous batching **[[Вики/continuous batching\|Continuous batching]]** ([[Вики/continuous batching\|непрерывный батчинг]]) — подход, при котором [[Вики/Planner\|планировщик]] на…

  • wikidecode

    …Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI|201. Что такое continuous

  • answerЧто такое continuous batching и как оно отличается от static batching? Как это реализовано в vLLM/TGI?

    …Принцип Continuous Batching (In-flight Batching) [[Вики/continuous batching\|Continuous batching]] также называют [[Вики/continuous batching\|in-flight batching]] или…

  • wikicontinuous batching

    # continuous batching ## Определение Метод батчевой обработки при инференсе LLM, при котором новые запросы могут динамически добавляться, а завершённые удаляться на…

  • wikiScheduler policy

    …Используется в continuous batching. ## Где встречается - [[438. Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching

  • wikiOpenAI Triton Inference Server

    # OpenAI Triton Inference Server ## Определение Сервер инференса, позволяющий реализовать кастомные планировщики для continuous batching и оптимизации вывода моделей. ## Где встречается…

  • wikiBatching timeout

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…

  • answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)? ## Краткий тезис **batching|Continuous batching** — это техника динамического формирования…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить continuous batching в vLLM и измерить прирост пропускной способности

    …Цель задачи Научиться включать и настраивать механизм [[Вики/continuous batching\|continuous batching]] в vLLM (vLLM) для инференса больших языковых моделей…

  • wikimixed batch

    …Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI|201. Что такое continuous

  • wikiEOS token

    …Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching Как реализовано в vLLM]] - [[467. Что такое…

  • wikiLightLLM

    …Что такое continuous batching и как оно влияет на throughput|843. Что такое continuous batching и как оно влияет на…

  • answerЧто такое continuous batching? Как реализовано в vLLM?

    …Что такое continuous batching? Как реализовано в vLLM? ## Краткий тезис **batching|Continuous batching** (batching|непрерывная пакетная обработка) — это техника инференса…

  • wikiprefill stage

    …Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI|201. Что такое continuous

  • wikiPlanner

    …Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI|201. Что такое continuous

  • answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)? ## Краткий тезис **batching|Continuous batching** (batching|непрерывный батчинг) — техника…

  • wikiKV cache manager

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…

  • wikioffline batch inference

    …Что такое continuous batching и как оно влияет на throughput|843. Что такое continuous batching и как оно влияет на…

  • wikibatch matrix multiplication

    …Что такое continuous batching и как оно влияет на throughput|843. Что такое continuous batching и как оно влияет на…

  • wikiBlock-based allocation

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…

  • wikiWaiting queue

    …Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching Как реализовано в vLLM]] - [[447. Как работает…

  • wikistatic memory allocation

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|453. Как работает continuous batching в TGI (Hugging Face…

  • wikiRunning queue

    …Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching Как реализовано в vLLM]] - [[447. Как работает…

  • wikithrashing

    …Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI|201. Что такое continuous

  • wikiPriority

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|453. Как работает continuous batching в TGI (Hugging Face…

  • answerПочему decode stage плохо batchится?

    …Static batching усугубляет ситуацию за счёт синхронизации по самому длинному запросу. Continuous batching — обязательный стандарт для inference серверов, но он…

  • wikipreemption

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…

  • wikitoken-level scheduler

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|453. Как работает continuous batching в TGI (Hugging Face…

  • wikiMemory Overhead

    …Что такое continuous batching и как оно влияет на throughput|843. Что такое continuous batching и как оно влияет на…

  • wikiPaged Attention

    …Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI|201. Что такое continuous

  • answerКак работает scheduler в vLLM? Какие алгоритмы выбора запросов?

    Continuous batching и роль scheduler'а **[[Вики/continuous batching\|Continuous batching]]** — ключевая особенность [[Вики/Paged Attention\|vLLM]]. В традиционном статическом…

  • answerКак вы дебажите низкую GPU utilization (например, 40% на A100)?

    …Решения - Внедрить [[Вики/continuous batching\|continuous batching]] (поддерживается в vLLM, TensorRT-LLM). - Настроить [[Вики/continuous batching\|dynamic batching]] в inference…

  • wikiFIFO

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|453. Как работает continuous batching в TGI (Hugging Face…

  • wikiGPU utilization

    …Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching Как реализовано в vLLM]] - [[459. Как вы…

  • wikimemory fragmentation

    …Что такое continuous batching и как оно влияет на throughput|843. Что такое continuous batching и как оно влияет на…

  • wikispeculative decoding

    …Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI|201. Что такое continuous

  • wikimax-num-batched-tokens

    # max-num-batched-tokens ## Определение Параметр vLLM, ограничивающий количество токенов в одном батче для continuous batching. ## Где встречается - [[Практика|Практика…

  • wikipipeline bubbles

    …Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching Как реализовано в vLLM]] - [[840. Когда tensor…

  • wikiiteration

    # iteration ## Определение Один шаг генерации токена для всех активных запросов в continuous batching. Также может обозначать повторение шага в цикле…

  • wikiTGI

    # TGI ## Определение Сервер инференса от Hugging Face для LLM с поддержкой streaming, continuous batching и отмены операций. Оптимизирован для production…

  • wikiiteration-level scheduling

    # iteration-level scheduling ## Определение Механизм планирования на уровне итераций, лежащий в основе continuous batching в vLLM. Позволяет управлять батчем на…

  • wikithroughput

    …Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI|201. Что такое continuous

  • wikiprefix caching

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…

  • answerЧто такое chunked prefill и зачем он нужен?

    …Реализация в популярных фреймворках [[Вики/VLLM\|vLLM]] Использует [[Вики/continuous batching\|continuous batching]] и **prefix caching**, что частично решает ту…

  • answerПочему vLLM быстрее TGI (Hugging Face Text Generation Inference)?

    Continuous Batching — агрессивное планирование **[[Вики/continuous batching\|Continuous Batching]]** (также «[[Вики/continuous batching\|iteration-level scheduling]]») — это техника, при которой…

  • answerКак вы деплоите LLM с TensorRT-LLM в production?

    …Triton с TensorRT-LLM backend использует [[Вики/continuous batching\|dynamic batching]] на уровне sequence slots: - При поступлении запроса ему назначается…

  • wikichunked prefill

    …Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching Как реализовано в vLLM]] - [[446. Что такое…

  • wikisimulation

    …Что такое continuous batching и как оно влияет на throughput|843. Что такое continuous batching и как оно влияет на…

  • wikifairness scheduling

    …Что такое continuous batching и как оно влияет на throughput|843. Что такое continuous batching и как оно влияет на…