Поиск

wikiStarvation
…Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[447…
wikivllm:num_requests_waiting
# vllm:num_requests_waiting ## Определение Метрика, экспортируемая vLLM, показывающая количество запросов, ожидающих в очереди на обработку; используется для мониторинга загрузки…
wikiтаблица страниц
…Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM…
wikiPlanner
# Planner ## Определение Компонент, который генерирует план действий (например, в архитектуре агента) или управляет очередью запросов (например, scheduler в vLLM). ## Где…
wikiBlock manager
# Block manager ## Определение Компонент vLLM, отвечающий за учёт, выделение, освобождение и вытеснение физических блоков KV-кэша, а также ведение block…
wikigpu-memory-utilization
# gpu-memory-utilization ## Определение Параметр vLLM, определяющий долю видеопамяти GPU, используемую для инференса. Влияет на возможность включения chunked prefill и…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить continuous batching в vLLM и измерить прирост пропускной способности
…Базовая настройка vLLM и запуск без continuous batching (30 минут) [[Вики/Действия\|Действия]] 1. [[Вики/Установите vLLM\|Установите vLLM]]: ```bash…
wikiswap-space
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[224. vLLM кластер…
wikiCDF
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[219. Сравнить inference schedulers (FCFS vs Priority…
answerTensorRT-LLM vs vLLM — сравнение для production deployment?
…TensorRT-LLM vs vLLM — сравнение для production deployment? ## Краткий тезис [[Вики/TensorRT-LLM\|TensorRT-LLM]] и [[Вики/VLLM\|vLLM]] — два…
wikiplotly
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[224. vLLM кластер на 4 GPU|224…
wikiWaiting queue
…Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching Как реализовано в vLLM]] - [[447. Как работает…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить auto-scaling для vLLM
…Развёртывание vLLM и сбор метрик GPU (1.5 часа) Действия 1. Создать [[Вики/Namespace\|namespace]] `vllm-system` в [[Вики/Kubernetes…
wikipriority-based scheduling
…Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[447…
wikirecomputation
…Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[304…
wikiRunning queue
…Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching Как реализовано в vLLM]] - [[447. Как работает…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть vLLM на 8 GPU с Tensor Parallelism и замерить throughput
…2. **Создать виртуальное окружение и установить vLLM:** ```bash python -m venv vllm_env source vllm_env/bin/activate pip install…
wikimemory fragmentation
…Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM…
wikistatic batching
…TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production deployment.]] - [[437. Почему decode…
answerКак работает tensor parallelism с FP8 в vLLM?
…Как работает tensor parallelism с FP8 в vLLM? ## Краткий тезис **parallelism|Tensor parallelism** с FP8 в vLLM — это техника распределённого…
wikiblock
…Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[447…
answerКак работает динамическое бэтчирование в TGI vs vLLM?
…Ключевое различие — способность [[Вики/VLLM\|vLLM]] динамически перераспределять [[Вики/Memory\|память]] между запросами, что даёт более высокую утилизацию [[Вики/GPU…
wikiVLLM
…Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM…
wikivirtualenv
…Применяется для воспроизводимости зависимостей при развёртывании LLM‑инференс кластеров, например, на vLLM. ## Где встречается - [[224. vLLM кластер на 4 GPU…
wikiconcurrency
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] ## Навигация - [[00. Индекс…
wikiLinear layers
# Linear layers ## Определение Полносвязные слои, для которых в vLLM поддерживается FP8; остальные операции остаются в FP16/FP32. ## Где встречается - [[460…
answerПочему vLLM быстрее TGI (Hugging Face Text Generation Inference)?
…Разверните vLLM: `docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest --model meta-llama/Meta-Llama-3.1…
wikiPaged Attention
# Paged Attention ## Определение Алгоритм управления KV-кэшем в LLM-серверах (vLLM), разбивающий внимание на блоки (страницы) и использующий таблицу страниц…
wikiSwap
…Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[232…
wikitensor-parallel-size
# tensor-parallel-size ## Определение Параметр vLLM, определяющий количество GPU для распределения модели с помощью tensor parallelism. Влияет на масштабирование и…
wikipreemption
…Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[210…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть vLLM против TGI и сравнить throughput
…Технологический стек | Компонент | Инструменты | Назначение | |-----------|-------------|------------| | Inference сервер #1 | vLLM (контейнер `vllm/vllm-openai:latest`) | Serving модели с PagedAttention | | Inference сервер…
answerКак масштабировать vLLM на несколько GPU/нод?
…Как масштабировать vLLM на несколько GPU/нод? ## Краткий тезис [[Вики/Scale\|Масштабирование]] [[Вики/VLLM\|vLLM]] на несколько [[Вики/GPU\|GPU…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: vLLM кластер на 4 GPU
…Установить зависимости ```bash conda create -n vllm python=3.10 -y conda activate vllm pip install torch torchvision torchaudio --index…
answerКак вы разворачиваете LLM в production (self-hosted)?
…Основные кандидаты: | Сервер | Компания | Особенности | Плюсы | Минусы | |--------|----------|-------------|-------|--------| | [[Вики/VLLM\|vLLM]] | Сообщество (UC Berkeley) | [[Вики/Paged Attention\|Paged attention]], [[Вики/continuous…
wikiCustom CUDA kernel
…Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM…
wikimax_num_seqs
# max_num_seqs ## Определение Параметр vLLM, ограничивающий количество последовательностей (запросов) в одном батче. Позволяет контролировать использование памяти и вычислительных ресурсов…
wikiPriority
…Используется в планировщиках очередей (например, vLLM) для приоритетной обработки. ## Где встречается - [[447. Как работает scheduler в vLLM Какие алгоритмы выбора…
wikithrashing
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить chunked prefill для long context (32k токенов, TTFT -60%)
…Установить [[Вики/Paged Attention\|vLLM]] и зависимости ```bash pip install vllm transformers pandas matplotlib aiohttp ``` Проверить версию: `[[Вики/SQL\|python…
wikidecode
…Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[211…
wikimulti-tenant
…Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[447…
answerКак вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM?
…Инструменты: - vLLM (установить `pip install vllm`) - Nsight Systems (скачать с NVIDIA) - Python, CUDA toolkit **Шаги**: 1. Установить vLLM и запустить…
answerКак бы вы спроектировали систему для 1000 одновременных пользователей чат-бота с RAG?
…celery -A tasks worker --concurrency=4 depends_on: - rabbitmq - vllm vllm: image: vllm/vllm-openai:latest command: --model meta-llama…
wikicontinuous batching
…Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM…
wikigpustat
…память и процессы. ## Где встречается - [[224. vLLM кластер на 4 GPU|224. vLLM кластер на 4 GPU]] ## Навигация - [[00. Индекс…
wikiaverageValue
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiminReplicas
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikicustom metric
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiWikitext
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…