Поиск
- wikitoken-level scheduler
# token-level scheduler ## Определение Компонент инференс-системы (например, TGI), который на каждой итерации выбирает, какие токены из активных запросов будут…
- answerПочему vLLM быстрее TGI (Hugging Face Text Generation Inference)?
…Ключевая инновация — **Attention|Paged Attention**, вдохновлённая механизмом виртуальной памяти в ОС. **[[Вики/TGI\|TGI]] ([[Вики/TGI\|Text Generation Inference]])** — решение…
- wikimax-batch-prefill-tokens
# max-batch-prefill-tokens ## Определение Параметр TGI, влияющий на throughput, ограничивающий количество токенов prefill в одном батче. ## Где встречается - [[206…
- wikiFIFO
# FIFO ## Определение Стратегия очереди запросов «первым пришёл — первым обслужен», используемая в TGI и других системах для обработки запросов в порядке…
- wikiKV cache manager
# KV cache manager ## Определение Компонент TGI, управляющий кэшем ключей и значений для каждого запроса. ## Где встречается - [[218. Как работает continuous…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть vLLM против TGI и сравнить throughput
…Развёртывание TGI (1.5–2 часа) Действия 1. Запустить [[Вики/containerization\|контейнер]] [[Вики/TGI\|TGI]] на порту 8080 (чтобы не…
- answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?
…Как работает continuous batching в TGI: токен-уровневый scheduler [[Вики/TGI\|TGI]] использует [[Вики/iteration-level scheduling\|iteration-level scheduling…
- wikiTGI
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
- wikistatic batching
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
- answerКак работает динамическое бэтчирование в TGI vs vLLM?
…Когда выбирать TGI, а когда vLLM **Выбираем [[Вики/TGI\|TGI]], если:** - Требуется предсказуемая [[Вики/Latency\|латентность]] ([[Вики/SLA\|SLA]] с…
- answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?
…Как работает continuous batching в TGI [[Вики/TGI\|TGI]] использует [[Вики/token-level scheduler\|токен-уровневый scheduler]] ([[Вики/Inference scheduler…
- wikiWikitext
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikiHuggingface CLI
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikiconcurrency
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] ## Навигация - [[00. Индекс…
- wikiprefix caching
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
- wikipreemption overhead
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] ## Навигация - [[00. Индекс…
- wikiBatching timeout
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
- wikiOpenAI Triton Inference Server
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
- wikiBlock-based allocation
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
- wikiNVIDIA Container Toolkit
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikiswap-space
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[224. vLLM кластер…
- wikikernels
…Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)|836. Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)]] - [[800…
- wikiCDF
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[219. Сравнить inference schedulers (FCFS vs Priority…
- wikiplotly
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[224. vLLM кластер на 4 GPU|224…
- wikistatic memory allocation
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|453. Как работает continuous batching в TGI (Hugging Face…
- wikiPriority
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|453. Как работает continuous batching в TGI (Hugging Face…
- wikipreemption
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
- wikimax_batched_tokens
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[212. Настроить chunked…
- wikimax_new_tokens
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[60. Настроить гибрид…
- wikigpu-memory-utilization
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[212. Настроить chunked prefill для long context…
- wikiStarvation
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[850. Как работают…
- wikiтаблица страниц
…Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)|836. Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)]] - [[837…
- wikiCurl
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[217. Реализовать streaming с SSE|217. Реализовать…
- wikipriority-based scheduling
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[850. Как работают…
- wikirecomputation
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[800+ вопросов|800…
- wikiGPU memory
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[209. Настроить AWQ quantization для LLM|209…
- wikimemory fragmentation
…Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)|836. Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)]] - [[843…
- wikiPlanner
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
- answerЧто такое continuous batching и как оно отличается от static batching? Как это реализовано в vLLM/TGI?
…Реализация в TGI (Text Generation Inference) [[Вики/TGI\|TGI]] — библиотека от Hugging Face для инференса LLM. Continuous batching в TGI…
- wikiSwap
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[800+ вопросов|800…
- wikichunked prefill
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[Практика|Практика]] - [[800…
- wikiGPU
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[219. Сравнить inference schedulers (FCFS vs Priority…
- wikimixed batch
…в одном батче для повышения эффективности инференса (например, в TGI). ## Где встречается - [[201. Что такое continuous batching и как оно…
- wikinvidia-smi
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[212. Настроить chunked prefill для long context…
- answerКак вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)?
…в библиотеках `[[Вики/Paged Attention\|vllm]]` и `[[Вики/TGI\|TGI]]` поддерживается через параметр `--enable-chunked-prefill`. ### 3.2 Prefix Caching…
- wikiJupyter Notebook
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[220. Настроить wave decoding для коротких ответов…
- wikiTTFT
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
- wikiaiohttp
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[217. Реализовать streaming с SSE|217. Реализовать…
- wikidecode
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|453. Как работает continuous batching в TGI (Hugging Face…
- wikitokenizer
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[209. Настроить AWQ quantization для LLM|209…