Поиск

  • wikitoken-level scheduler

    # token-level scheduler ## Определение Компонент инференс-системы (например, TGI), который на каждой итерации выбирает, какие токены из активных запросов будут…

  • answerПочему vLLM быстрее TGI (Hugging Face Text Generation Inference)?

    …Ключевая инновация — **Attention|Paged Attention**, вдохновлённая механизмом виртуальной памяти в ОС. **[[Вики/TGI\|TGI]] ([[Вики/TGI\|Text Generation Inference]])** — решение…

  • wikimax-batch-prefill-tokens

    # max-batch-prefill-tokens ## Определение Параметр TGI, влияющий на throughput, ограничивающий количество токенов prefill в одном батче. ## Где встречается - [[206…

  • wikiFIFO

    # FIFO ## Определение Стратегия очереди запросов «первым пришёл — первым обслужен», используемая в TGI и других системах для обработки запросов в порядке…

  • wikiKV cache manager

    # KV cache manager ## Определение Компонент TGI, управляющий кэшем ключей и значений для каждого запроса. ## Где встречается - [[218. Как работает continuous…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть vLLM против TGI и сравнить throughput

    …Развёртывание TGI (1.5–2 часа) Действия 1. Запустить [[Вики/containerization\|контейнер]] [[Вики/TGI\|TGI]] на порту 8080 (чтобы не…

  • answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?

    …Как работает continuous batching в TGI: токен-уровневый scheduler [[Вики/TGI\|TGI]] использует [[Вики/iteration-level scheduling\|iteration-level scheduling…

  • wikiTGI

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…

  • wikistatic batching

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…

  • answerКак работает динамическое бэтчирование в TGI vs vLLM?

    …Когда выбирать TGI, а когда vLLM **Выбираем [[Вики/TGI\|TGI]], если:** - Требуется предсказуемая [[Вики/Latency\|латентность]] ([[Вики/SLA\|SLA]] с…

  • answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?

    …Как работает continuous batching в TGI [[Вики/TGI\|TGI]] использует [[Вики/token-level scheduler\|токен-уровневый scheduler]] ([[Вики/Inference scheduler…

  • wikiWikitext

    …Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiHuggingface CLI

    …Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiconcurrency

    …Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] ## Навигация - [[00. Индекс…

  • wikiprefix caching

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…

  • wikipreemption overhead

    …Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] ## Навигация - [[00. Индекс…

  • wikiBatching timeout

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…

  • wikiOpenAI Triton Inference Server

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…

  • wikiBlock-based allocation

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…

  • wikiNVIDIA Container Toolkit

    …Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiswap-space

    …Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[224. vLLM кластер…

  • wikikernels

    …Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)|836. Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)]] - [[800…

  • wikiCDF

    …Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[219. Сравнить inference schedulers (FCFS vs Priority…

  • wikiplotly

    …Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[224. vLLM кластер на 4 GPU|224…

  • wikistatic memory allocation

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|453. Как работает continuous batching в TGI (Hugging Face…

  • wikiPriority

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|453. Как работает continuous batching в TGI (Hugging Face…

  • wikipreemption

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…

  • wikimax_batched_tokens

    …Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[212. Настроить chunked…

  • wikimax_new_tokens

    …Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[60. Настроить гибрид…

  • wikigpu-memory-utilization

    …Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[212. Настроить chunked prefill для long context…

  • wikiStarvation

    …Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[850. Как работают…

  • wikiтаблица страниц

    …Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)|836. Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)]] - [[837…

  • wikiCurl

    …Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[217. Реализовать streaming с SSE|217. Реализовать…

  • wikipriority-based scheduling

    …Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[850. Как работают…

  • wikirecomputation

    …Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[800+ вопросов|800…

  • wikiGPU memory

    …Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[209. Настроить AWQ quantization для LLM|209…

  • wikimemory fragmentation

    …Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)|836. Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)]] - [[843…

  • wikiPlanner

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…

  • answerЧто такое continuous batching и как оно отличается от static batching? Как это реализовано в vLLM/TGI?

    …Реализация в TGI (Text Generation Inference) [[Вики/TGI\|TGI]] — библиотека от Hugging Face для инференса LLM. Continuous batching в TGI

  • wikiSwap

    …Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[800+ вопросов|800…

  • wikichunked prefill

    …Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[Практика|Практика]] - [[800…

  • wikiGPU

    …Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[219. Сравнить inference schedulers (FCFS vs Priority…

  • wikimixed batch

    …в одном батче для повышения эффективности инференса (например, в TGI). ## Где встречается - [[201. Что такое continuous batching и как оно…

  • wikinvidia-smi

    …Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[212. Настроить chunked prefill для long context…

  • answerКак вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)?

    …в библиотеках `[[Вики/Paged Attention\|vllm]]` и `[[Вики/TGI\|TGI]]` поддерживается через параметр `--enable-chunked-prefill`. ### 3.2 Prefix Caching…

  • wikiJupyter Notebook

    …Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[220. Настроить wave decoding для коротких ответов…

  • wikiTTFT

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…

  • wikiaiohttp

    …Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[217. Реализовать streaming с SSE|217. Реализовать…

  • wikidecode

    …Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|453. Как работает continuous batching в TGI (Hugging Face…

  • wikitokenizer

    …Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[209. Настроить AWQ quantization для LLM|209…