Поиск

  • wikiStarvation

    …Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[447…

  • wikivllm:num_requests_waiting

    # vllm:num_requests_waiting ## Определение Метрика, экспортируемая vLLM, показывающая количество запросов, ожидающих в очереди на обработку; используется для мониторинга загрузки…

  • wikiтаблица страниц

    …Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM

  • wikiPlanner

    # Planner ## Определение Компонент, который генерирует план действий (например, в архитектуре агента) или управляет очередью запросов (например, scheduler в vLLM). ## Где…

  • wikiBlock manager

    # Block manager ## Определение Компонент vLLM, отвечающий за учёт, выделение, освобождение и вытеснение физических блоков KV-кэша, а также ведение block…

  • wikigpu-memory-utilization

    # gpu-memory-utilization ## Определение Параметр vLLM, определяющий долю видеопамяти GPU, используемую для инференса. Влияет на возможность включения chunked prefill и…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить continuous batching в vLLM и измерить прирост пропускной способности

    …Базовая настройка vLLM и запуск без continuous batching (30 минут) [[Вики/Действия\|Действия]] 1. [[Вики/Установите vLLM\|Установите vLLM]]: ```bash…

  • wikiswap-space

    …Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] - [[224. vLLM кластер…

  • wikiCDF

    …Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[219. Сравнить inference schedulers (FCFS vs Priority…

  • answerTensorRT-LLM vs vLLM — сравнение для production deployment?

    …TensorRT-LLM vs vLLM — сравнение для production deployment? ## Краткий тезис [[Вики/TensorRT-LLM\|TensorRT-LLM]] и [[Вики/VLLM\|vLLM]] — два…

  • wikiplotly

    …Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[224. vLLM кластер на 4 GPU|224…

  • wikiWaiting queue

    …Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching Как реализовано в vLLM]] - [[447. Как работает…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить auto-scaling для vLLM

    …Развёртывание vLLM и сбор метрик GPU (1.5 часа) Действия 1. Создать [[Вики/Namespace\|namespace]] `vllm-system` в [[Вики/Kubernetes…

  • wikipriority-based scheduling

    …Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[447…

  • wikirecomputation

    …Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[304…

  • wikiRunning queue

    …Что такое continuous batching Как реализовано в vLLM|438. Что такое continuous batching Как реализовано в vLLM]] - [[447. Как работает…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть vLLM на 8 GPU с Tensor Parallelism и замерить throughput

    …2. **Создать виртуальное окружение и установить vLLM:** ```bash python -m venv vllm_env source vllm_env/bin/activate pip install…

  • wikimemory fragmentation

    …Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM

  • wikistatic batching

    …TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production deployment.]] - [[437. Почему decode…

  • answerКак работает tensor parallelism с FP8 в vLLM?

    …Как работает tensor parallelism с FP8 в vLLM? ## Краткий тезис **parallelism|Tensor parallelism** с FP8 в vLLM — это техника распределённого…

  • wikiblock

    …Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[447…

  • answerКак работает динамическое бэтчирование в TGI vs vLLM?

    …Ключевое различие — способность [[Вики/VLLM\|vLLM]] динамически перераспределять [[Вики/Memory\|память]] между запросами, что даёт более высокую утилизацию [[Вики/GPU…

  • wikiVLLM

    …Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM

  • wikivirtualenv

    …Применяется для воспроизводимости зависимостей при развёртывании LLM‑инференс кластеров, например, на vLLM. ## Где встречается - [[224. vLLM кластер на 4 GPU…

  • wikiconcurrency

    …Как работает динамическое бэтчирование в TGI vs vLLM|848. Как работает динамическое бэтчирование в TGI vs vLLM]] ## Навигация - [[00. Индекс…

  • wikiLinear layers

    # Linear layers ## Определение Полносвязные слои, для которых в vLLM поддерживается FP8; остальные операции остаются в FP16/FP32. ## Где встречается - [[460…

  • answerПочему vLLM быстрее TGI (Hugging Face Text Generation Inference)?

    …Разверните vLLM: `docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest --model meta-llama/Meta-Llama-3.1…

  • wikiPaged Attention

    # Paged Attention ## Определение Алгоритм управления KV-кэшем в LLM-серверах (vLLM), разбивающий внимание на блоки (страницы) и использующий таблицу страниц…

  • wikiSwap

    …Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[232…

  • wikitensor-parallel-size

    # tensor-parallel-size ## Определение Параметр vLLM, определяющий количество GPU для распределения модели с помощью tensor parallelism. Влияет на масштабирование и…

  • wikipreemption

    …Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[210…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть vLLM против TGI и сравнить throughput

    …Технологический стек | Компонент | Инструменты | Назначение | |-----------|-------------|------------| | Inference сервер #1 | vLLM (контейнер `vllm/vllm-openai:latest`) | Serving модели с PagedAttention | | Inference сервер…

  • answerКак масштабировать vLLM на несколько GPU/нод?

    …Как масштабировать vLLM на несколько GPU/нод? ## Краткий тезис [[Вики/Scale\|Масштабирование]] [[Вики/VLLM\|vLLM]] на несколько [[Вики/GPU\|GPU…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: vLLM кластер на 4 GPU

    …Установить зависимости ```bash conda create -n vllm python=3.10 -y conda activate vllm pip install torch torchvision torchaudio --index…

  • answerКак вы разворачиваете LLM в production (self-hosted)?

    …Основные кандидаты: | Сервер | Компания | Особенности | Плюсы | Минусы | |--------|----------|-------------|-------|--------| | [[Вики/VLLM\|vLLM]] | Сообщество (UC Berkeley) | [[Вики/Paged Attention\|Paged attention]], [[Вики/continuous…

  • wikiCustom CUDA kernel

    …Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM

  • wikimax_num_seqs

    # max_num_seqs ## Определение Параметр vLLM, ограничивающий количество последовательностей (запросов) в одном батче. Позволяет контролировать использование памяти и вычислительных ресурсов…

  • wikiPriority

    …Используется в планировщиках очередей (например, vLLM) для приоритетной обработки. ## Где встречается - [[447. Как работает scheduler в vLLM Какие алгоритмы выбора…

  • wikithrashing

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить chunked prefill для long context (32k токенов, TTFT -60%)

    …Установить [[Вики/Paged Attention\|vLLM]] и зависимости ```bash pip install vllm transformers pandas matplotlib aiohttp ``` Проверить версию: `[[Вики/SQL\|python…

  • wikidecode

    …Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[211…

  • wikimulti-tenant

    …Как работает scheduler в vLLM Какие алгоритмы выбора запросов|207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов]] - [[447…

  • answerКак вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM?

    …Инструменты: - vLLM (установить `pip install vllm`) - Nsight Systems (скачать с NVIDIA) - Python, CUDA toolkit **Шаги**: 1. Установить vLLM и запустить…

  • answerКак бы вы спроектировали систему для 1000 одновременных пользователей чат-бота с RAG?

    …celery -A tasks worker --concurrency=4 depends_on: - rabbitmq - vllm vllm: image: vllm/vllm-openai:latest command: --model meta-llama…

  • wikicontinuous batching

    …Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM

  • wikigpustat

    …память и процессы. ## Где встречается - [[224. vLLM кластер на 4 GPU|224. vLLM кластер на 4 GPU]] ## Навигация - [[00. Индекс…

  • wikiaverageValue

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiminReplicas

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikicustom metric

    …Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiWikitext

    …Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…