Поиск
- wikiStarvation
…Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[447…
- wikivllm:num_requests_waiting
# vllm:num_requests_waiting ## Определение Метрика, экспортируемая vLLM, показывающая количество запросов, ожидающих в очереди на обработку; используется для мониторинга загрузки…
- wikiтаблица страниц
…Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM…
- wikiPlanner
# Planner ## Определение Компонент, который генерирует план действий (например, в архитектуре агента) или управляет очередью запросов (например, scheduler в vLLM). ## Где…
- wikiBlock manager
# Block manager ## Определение Компонент vLLM, отвечающий за учёт, выделение, освобождение и вытеснение физических блоков KV-кэша, а также ведение block…
- wikigpu-memory-utilization
# gpu-memory-utilization ## Определение Параметр vLLM, определяющий долю видеопамяти GPU, используемую для инференса. Влияет на возможность включения chunked prefill и…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить continuous batching в vLLM и измерить прирост пропускной способности
…Базовая настройка vLLM и запуск без continuous batching (30 минут) [[Вики/Действия\|Действия]] 1. [[Вики/Установите vLLM\|Установите vLLM]]: ```bash…
- wikiswap-space
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[224. vLLM кластер…
- wikiCDF
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[219. Сравнить inference schedulers (FCFS vs Priority…
- answerTensorRT-LLM vs vLLM — сравнение для production deployment?
…TensorRT-LLM vs vLLM — сравнение для production deployment? ## Краткий тезис [[Вики/TensorRT-LLM\|TensorRT-LLM]] и [[Вики/VLLM\|vLLM]] — два…
- wikiplotly
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[224. vLLM кластер на 4 GPU|224…
- wikiWaiting queue
…Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching Как реализовано в vLLM]] - [[447. Как работает…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить auto-scaling для vLLM
…Развёртывание vLLM и сбор метрик GPU (1.5 часа) Действия 1. Создать [[Вики/Namespace\|namespace]] `vllm-system` в [[Вики/Kubernetes…
- wikipriority-based scheduling
…Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[447…
- wikirecomputation
…Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[304…
- wikiRunning queue
…Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching Как реализовано в vLLM]] - [[447. Как работает…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть vLLM на 8 GPU с Tensor Parallelism и замерить throughput
…2. **Создать виртуальное окружение и установить vLLM:** ```bash python -m venv vllm_env source vllm_env/bin/activate pip install…
- wikimemory fragmentation
…Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM…
- wikistatic batching
…TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production deployment.]] - [[437. Почему decode…
- answerКак работает tensor parallelism с FP8 в vLLM?
…Как работает tensor parallelism с FP8 в vLLM? ## Краткий тезис **parallelism|Tensor parallelism** с FP8 в vLLM — это техника распределённого…
- wikiblock
…Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[447…
- answerКак работает динамическое бэтчирование в TGI vs vLLM?
…Ключевое различие — способность [[Вики/VLLM\|vLLM]] динамически перераспределять [[Вики/Memory\|память]] между запросами, что даёт более высокую утилизацию [[Вики/GPU…
- wikiVLLM
…Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM…
- wikivirtualenv
…Применяется для воспроизводимости зависимостей при развёртывании LLM‑инференс кластеров, например, на vLLM. ## Где встречается - [[224. vLLM кластер на 4 GPU…
- wikiconcurrency
…Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] ## Навигация - [[00. Индекс…
- wikiLinear layers
# Linear layers ## Определение Полносвязные слои, для которых в vLLM поддерживается FP8; остальные операции остаются в FP16/FP32. ## Где встречается - [[460…
- answerПочему vLLM быстрее TGI (Hugging Face Text Generation Inference)?
…Разверните vLLM: `docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest --model meta-llama/Meta-Llama-3.1…
- wikiPaged Attention
# Paged Attention ## Определение Алгоритм управления KV-кэшем в LLM-серверах (vLLM), разбивающий внимание на блоки (страницы) и использующий таблицу страниц…
- wikiSwap
…Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[232…
- wikitensor-parallel-size
# tensor-parallel-size ## Определение Параметр vLLM, определяющий количество GPU для распределения модели с помощью tensor parallelism. Влияет на масштабирование и…
- wikipreemption
…Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[210…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть vLLM против TGI и сравнить throughput
…Технологический стек | Компонент | Инструменты | Назначение | |-----------|-------------|------------| | Inference сервер #1 | vLLM (контейнер `vllm/vllm-openai:latest`) | Serving модели с PagedAttention | | Inference сервер…
- answerКак масштабировать vLLM на несколько GPU/нод?
…Как масштабировать vLLM на несколько GPU/нод? ## Краткий тезис [[Вики/Scale\|Масштабирование]] [[Вики/VLLM\|vLLM]] на несколько [[Вики/GPU\|GPU…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: vLLM кластер на 4 GPU
…Установить зависимости ```bash conda create -n vllm python=3.10 -y conda activate vllm pip install torch torchvision torchaudio --index…
- answerКак вы разворачиваете LLM в production (self-hosted)?
…Основные кандидаты: | Сервер | Компания | Особенности | Плюсы | Минусы | |--------|----------|-------------|-------|--------| | [[Вики/VLLM\|vLLM]] | Сообщество (UC Berkeley) | [[Вики/Paged Attention\|Paged attention]], [[Вики/continuous…
- wikiCustom CUDA kernel
…Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM…
- wikimax_num_seqs
# max_num_seqs ## Определение Параметр vLLM, ограничивающий количество последовательностей (запросов) в одном батче. Позволяет контролировать использование памяти и вычислительных ресурсов…
- wikiPriority
…Используется в планировщиках очередей (например, vLLM) для приоритетной обработки. ## Где встречается - [[447. Как работает scheduler в vLLM Какие алгоритмы выбора…
- wikithrashing
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить chunked prefill для long context (32k токенов, TTFT -60%)
…Установить [[Вики/Paged Attention\|vLLM]] и зависимости ```bash pip install vllm transformers pandas matplotlib aiohttp ``` Проверить версию: `[[Вики/SQL\|python…
- wikidecode
…Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[211…
- wikimulti-tenant
…Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[447…
- answerКак вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM?
…Инструменты: - vLLM (установить `pip install vllm`) - Nsight Systems (скачать с NVIDIA) - Python, CUDA toolkit **Шаги**: 1. Установить vLLM и запустить…
- answerКак бы вы спроектировали систему для 1000 одновременных пользователей чат-бота с RAG?
…celery -A tasks worker --concurrency=4 depends_on: - rabbitmq - vllm vllm: image: vllm/vllm-openai:latest command: --model meta-llama…
- wikicontinuous batching
…Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM…
- wikigpustat
…память и процессы. ## Где встречается - [[224. vLLM кластер на 4 GPU|224. vLLM кластер на 4 GPU]] ## Навигация - [[00. Индекс…
- wikiaverageValue
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiminReplicas
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikicustom metric
…Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiWikitext
…Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…