Поиск

wikitoken-level scheduler
# token-level scheduler ## Определение Компонент инференс-системы (например, TGI), который на каждой итерации выбирает, какие токены из активных запросов будут…
answerПочему vLLM быстрее TGI (Hugging Face Text Generation Inference)?
…Ключевая инновация — **Attention|Paged Attention**, вдохновлённая механизмом виртуальной памяти в ОС. **[[Вики/TGI\|TGI]] ([[Вики/TGI\|Text Generation Inference]])** — решение…
wikimax-batch-prefill-tokens
# max-batch-prefill-tokens ## Определение Параметр TGI, влияющий на throughput, ограничивающий количество токенов prefill в одном батче. ## Где встречается - [[206…
wikiFIFO
# FIFO ## Определение Стратегия очереди запросов «первым пришёл — первым обслужен», используемая в TGI и других системах для обработки запросов в порядке…
wikiKV cache manager
# KV cache manager ## Определение Компонент TGI, управляющий кэшем ключей и значений для каждого запроса. ## Где встречается - [[218. Как работает continuous…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть vLLM против TGI и сравнить throughput
…Развёртывание TGI (1.5–2 часа) Действия 1. Запустить [[Вики/containerization\|контейнер]] [[Вики/TGI\|TGI]] на порту 8080 (чтобы не…
answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?
…Как работает continuous batching в TGI: токен-уровневый scheduler [[Вики/TGI\|TGI]] использует [[Вики/iteration-level scheduling\|iteration-level scheduling…
wikiTGI
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
wikistatic batching
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
answerКак работает динамическое бэтчирование в TGI vs vLLM?
…Когда выбирать TGI, а когда vLLM **Выбираем [[Вики/TGI\|TGI]], если:** - Требуется предсказуемая [[Вики/Latency\|латентность]] ([[Вики/SLA\|SLA]] с…
answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?
…Как работает continuous batching в TGI [[Вики/TGI\|TGI]] использует [[Вики/token-level scheduler\|токен-уровневый scheduler]] ([[Вики/Inference scheduler…
wikiWikitext
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
wikiHuggingface CLI
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
wikiconcurrency
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] ## Навигация - [[00. Индекс…
wikiprefix caching
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
wikipreemption overhead
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] ## Навигация - [[00. Индекс…
wikiBatching timeout
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
wikiOpenAI Triton Inference Server
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
wikiBlock-based allocation
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
wikiNVIDIA Container Toolkit
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
wikiswap-space
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[224. vLLM кластер…
wikikernels
…Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)|836. Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)]] - [[800…
wikiCDF
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[219. Сравнить inference schedulers (FCFS vs Priority…
wikiplotly
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[224. vLLM кластер на 4 GPU|224…
wikistatic memory allocation
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|453. Как работает continuous batching в TGI (Hugging Face…
wikiPriority
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|453. Как работает continuous batching в TGI (Hugging Face…
wikipreemption
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
wikimax_batched_tokens
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[212. Настроить chunked…
wikimax_new_tokens
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[60. Настроить гибрид…
wikigpu-memory-utilization
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[212. Настроить chunked prefill для long context…
wikiStarvation
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[850. Как работают…
wikiтаблица страниц
…Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)|836. Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)]] - [[837…
wikiCurl
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[217. Реализовать streaming с SSE|217. Реализовать…
wikipriority-based scheduling
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[850. Как работают…
wikirecomputation
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[800+ вопросов|800…
wikiGPU memory
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[209. Настроить AWQ quantization для LLM|209…
wikimemory fragmentation
…Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)|836. Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)]] - [[843…
wikiPlanner
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
answerЧто такое continuous batching и как оно отличается от static batching? Как это реализовано в vLLM/TGI?
…Реализация в TGI (Text Generation Inference) [[Вики/TGI\|TGI]] — библиотека от Hugging Face для инференса LLM. Continuous batching в TGI…
wikiSwap
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[800+ вопросов|800…
wikichunked prefill
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[Практика|Практика]] - [[800…
wikiGPU
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[219. Сравнить inference schedulers (FCFS vs Priority…
wikimixed batch
…в одном батче для повышения эффективности инференса (например, в TGI). ## Где встречается - [[201. Что такое continuous batching и как оно…
wikinvidia-smi
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[212. Настроить chunked prefill для long context…
answerКак вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)?
…в библиотеках `[[Вики/Paged Attention\|vllm]]` и `[[Вики/TGI\|TGI]]` поддерживается через параметр `--enable-chunked-prefill`. ### 3.2 Prefix Caching…
wikiJupyter Notebook
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[220. Настроить wave decoding для коротких ответов…
wikiTTFT
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
wikiaiohttp
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[217. Реализовать streaming с SSE|217. Реализовать…
wikidecode
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|453. Как работает continuous batching в TGI (Hugging Face…
wikitokenizer
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[209. Настроить AWQ quantization для LLM|209…