Поиск

wikiGPU scheduling
# GPU scheduling ## Определение Механизм распределения вычислительных ресурсов GPU между задачами или арендаторами (tenant'ами) в multi-tenant окружении. Обеспечивает справедливое…
wikiGPU Direct RDMA
# GPU Direct RDMA ## Определение Технология прямого доступа GPU к памяти удалённых узлов через InfiniBand или RoCE, минуя CPU. Критична для…
wikiGPU instance
# GPU instance ## Определение Логический GPU, создаваемый с помощью технологии MIG (Multi-Instance GPU), который получает фиксированную долю ресурсов физического GPU…
wikiGPU cluster
# GPU cluster ## Определение Группа серверов с GPU, объединённых высокоскоростной сетью, используемая для обучения и инференса LLM. Требует управления ресурсами и…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить GPU scheduling для multi-tenant
…namespaceSelector: {} resourceGroups: - coveredResources: ["nvidia.com/gpu"] flavors: - name: gpu-flavor resources: - name: nvidia.com/gpu minCount: 2 # минимум 2 GPU…
wikiGPU utilization
# GPU utilization ## Определение Метрика, показывающая степень загрузки вычислительных блоков GPU во время выполнения задач. Низкое значение (<50%) указывает на узкие…
wikigpu-memory-utilization
# gpu-memory-utilization ## Определение Параметр vLLM, определяющий долю видеопамяти GPU, используемую для инференса. Влияет на возможность включения chunked prefill и…
wikiGPU-экспортёр
# GPU-экспортёр ## Определение Компонент для экспорта метрик GPU (загрузка, память) в систему мониторинга, например Prometheus. ## Где встречается - [[205. Настроить GPU…
wikiCPU-GPU synchronization
# CPU-GPU synchronization ## Определение Точки синхронизации между CPU и GPU, которые могут вызывать простои устройств при неправильном управлении асинхронностью. ## Где…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать topology-aware scheduling для K8s device plugin с учётом NVSwitch доменов
…Добавьте механизм приоритетной выдачи [[Вики/GPU\|GPU]] По умолчанию [[Вики/Kubernetes device plugin\|device plugin]] распределяет [[Вики/GPU\|GPU]] в…
wikiGPU Direct
# GPU Direct ## Определение Технология NVIDIA, позволяющая GPU напрямую обмениваться данными с другими устройствами (например, сетевыми адаптерами) без участия CPU. Ускоряет…
wikimulti-GPU inference
# multi-GPU inference ## Определение Запуск модели на нескольких GPU для уменьшения задержки или увеличения пропускной способности; при tensor parallelism узким…
wikiGPU utilization drop
# GPU utilization drop ## Определение Ситуация, когда загрузка GPU падает ниже ожидаемого уровня (например, <50%), что сигнализирует о проблемах с производительностью…
wikiNVIDIA GPU Operator
# NVIDIA GPU Operator ## Определение Оператор Kubernetes для автоматизации управления GPU-ресурсами в кластере. Упрощает развёртывание драйверов, инструментов мониторинга и планирование…
wikiInter-GPU bandwidth
# Inter-GPU bandwidth ## Определение Пропускная способность соединения между GPU (NVLink/NVSwitch vs PCIe), критичная для распределённого обучения и инференса. Влияет…
answerКак организовать GPU scheduling для multi-tenant LLM serving?
…Физическая изоляция (Dedicated GPU) Простейший подход: каждому [[Вики/multi-tenant\|tenant]] выделяются фиксированные физические [[Вики/GPU\|GPU]]. Плюсы - Максимальная [[Вики…
answerКак работает tensor parallelism для LLM инференса? В чем отличие от pipeline parallelism?
…Например, для модели с 32 [[Вики/Attention heads\|heads]] и 4 [[Вики/GPU\|GPU]]: каждый [[Вики/GPU\|GPU]] получает 8…
wikigpustat
# gpustat ## Определение Утилита командной строки для просмотра состояния GPU, отображающая загрузку, память и процессы. ## Где встречается - [[224. vLLM кластер на…
answerЧто такое MIG (Multi-Instance GPU) и когда он полезен для LLM?
…Что такое MIG (Multi-Instance GPU) и когда он полезен для LLM? ## Краткий тезис **MIG (GPU|Multi-Instance GPU)** — это…
answerКак работает sequence parallelism в контексте LLM?
…Основные [[Вики/constraints\|ограничения]] одного [[Вики/GPU\|GPU]] - **ОЗУ ([[Вики/GPU memory\|VRAM]])**: даже [[Вики/Hopper GPU\|H100]] (80 ГБ…
answerЧто такое MIG (Multi-Instance GPU) и как настроить для разных LLM?
…MIG (Multi-Instance GPU) [[Вики/Multi-Instance GPU\|MIG]] — это аппаратная [[Вики/API\|функция]], доступная на [[Вики/GPU\|GPU]] архитектуры…
wikigpu-burn
# gpu-burn ## Определение Утилита для стресс-тестирования GPU, создающая максимальную нагрузку для проверки стабильности и охлаждения. ## Где встречается - [[72. Настроить…
wikiA100
# A100 ## Определение Флагманская GPU NVIDIA архитектуры Ampere с 80GB памяти, поддерживающая MIG (Multi-Instance GPU) и широко используемая для инференса…
wikiGPU allocation
# GPU allocation ## Определение Процесс распределения редких ресурсов GPU между LLM-агентами или задачами, часто с использованием механизмов аукциона (например, VCG…
answerЧто такое NCCL и почему он критичен для multi-GPU инференса?
…Рассмотрим ключевые для [[Вики/multi-GPU inference\|multi-GPU]] инференса: - AllReduce — каждый GPU имеет свой тензор; после операции все GPU…
wikiGPU affinity
# GPU affinity ## Определение Привязка процессов или NUMA-узлов к конкретным GPU для оптимизации производительности и минимизации задержек при инференсе. ## Где…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: vLLM кластер на 4 GPU
…Проверить доступные [[Вики/GPU\|GPU]] ```bash nvidia-smi nvidia-smi topo -m # topology (важно для TP) ``` Убедиться: ≥4 [[Вики/GPU…
wikiVolcano
# Volcano ## Определение Планировщик пакетных заданий для Kubernetes с поддержкой GPU scheduling, gang scheduling и fair-share; альтернатива Kueue для программного…
wikiPCIe
# PCIe ## Определение Высокоскоростная последовательная шина для подключения периферийных устройств, особенно GPU. В LLM-инференсе является узким местом из-за ограниченной…
wikiMulti-Instance GPU
# Multi-Instance GPU ## Определение Технология разделения GPU A100/H100 на изолированные инстансы для запуска разных LLM. ## Где встречается - [[Практика|Практика…
answerКак PCIe bottleneck проявляется в multi-GPU инференсе?
…Позволяет [[Вики/GPU\|GPU]] обмениваться данными без участия CPU/PCIe. - [[Вики/multi-GPU inference\|Multi-GPU inference]] — запуск одной модели…
wikigdrcopy
# gdrcopy ## Определение Утилита для проверки функциональности GPU Direct RDMA — технологии, позволяющей осуществлять прямой доступ к памяти GPU через RDMA без…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить expert parallelism для Mixtral
…Измерить пиковое использование памяти на каждом GPU (до и после): ```python import subprocess def get_gpu_mem(gpu_id): result…
answerTensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса?
…каждый [[Вики/GPU\|GPU]] хранит полную копию модели. Входящие [[Вики/Query\|запросы]] (батчи) делятся между [[Вики/GPU\|GPU]]. После [[Вики…
wikiDCGM_FI_DEV_GPU_UTIL
# DCGM_FI_DEV_GPU_UTIL ## Определение Метрика GPU utilization, экспортируемая DCGM Exporter, показывающая процент времени, в течение которого GPU был…
wikiGPU time
# GPU time ## Определение Мера вычислительных затрат, измеряемая в часах работы GPU. Используется для оценки стоимости инференса, fine-tuning и распределения…
wikiNCCL_NET_GDR_LEVEL
# NCCL_NET_GDR_LEVEL ## Определение Переменная окружения для настройки GPU Direct RDMA, влияет на производительность меж-GPU коммуникаций. ## Где встречается…
answerЧто такое DeepSpeed ZeRO-Offload и когда он полезен?
…каждый [[Вики/GPU\|GPU]] хранит только свою часть данных, а при необходимости получает недостающие части от других [[Вики/GPU\|GPU…
wikiMPI
…Настроить NVLink topology для 8x GPU|6. Настроить NVLink topology для 8x GPU]] - [[9. Профилировать network congestion на 64 GPU…
wikiGPU серверы
# GPU серверы ## Определение Серверы, оснащённые графическими процессорами (GPU), используемые для выполнения инференса больших языковых моделей. Требуют значительных капитальных вложений. ## Где…
wikiSpot GPU
# Spot GPU ## Определение Самый дешёвый, но нестабильный вариант GPU для инференса. ## Где встречается - [[145. Сделать финансовую модель LLM-продукта|145…
wikioccupancy
# occupancy ## Определение Мера загрузки вычислительных ресурсов GPU; отношение активных warp'ов к максимально возможному на SM. Высокая occupancy помогает скрыть…
wikiNCCL
# NCCL ## Определение Библиотека NVIDIA для коллективных коммуникаций между GPU, критичная для multi-GPU инференса и обучения. ## Где встречается - [[307. Как…
wiki1 GPU
# 1 GPU ## Определение Ограничение аппаратного обеспечения, при котором fine-tuning 70B модели возможно только с использованием методов сжатия, таких как…
answerЧто такое 3D parallelism (data + tensor + pipeline)?
…DP — [[Вики/indexing\|утилизация]] большого количества [[Вики/GPU\|GPU]] при недостаточном батч-сайзе, TP — [[Вики/Memory\|память]] для гигантских слоёв…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить NVLink topology для 8× GPU
…Ключевой результат Каждая из 8 [[Вики/GPU\|GPU]] получает прямой NVLink-доступ ([[Вики/Point-to-point communication\|peer access]]) ко…
wikinvidia-smi
# nvidia-smi ## Определение CLI-утилита для мониторинга и управления NVIDIA GPU. Показывает текущую утилизацию, использование памяти, температуру и другие метрики…
wikiтопология GPU
# топология GPU ## Определение Схема соединений GPU внутри узла и между узлами, влияющая на производительность распределённых вычислений. ## Где встречается - [[5. Сравнить…
answerКак работает FSDP (Fully Sharded Data Parallel) в PyTorch?
…Каждый [[Вики/GPU\|GPU]] владеет уникальным фрагментом. - [[Вики/AllGather\|AllGather]] — коллективная операция, при которой каждый [[Вики/GPU\|GPU]] отправляет свой…
wikiGPU Inference
# GPU Inference ## Определение Процесс выполнения предсказаний обученной модели на GPU. Является основным источником вычислительных затрат для LLM-продуктов. ## Где встречается…