Поиск

  • wikiGPU scheduling

    # GPU scheduling ## Определение Механизм распределения вычислительных ресурсов GPU между задачами или арендаторами (tenant'ами) в multi-tenant окружении. Обеспечивает справедливое…

  • wikiGPU Direct RDMA

    # GPU Direct RDMA ## Определение Технология прямого доступа GPU к памяти удалённых узлов через InfiniBand или RoCE, минуя CPU. Критична для…

  • wikiGPU instance

    # GPU instance ## Определение Логический GPU, создаваемый с помощью технологии MIG (Multi-Instance GPU), который получает фиксированную долю ресурсов физического GPU

  • wikiGPU cluster

    # GPU cluster ## Определение Группа серверов с GPU, объединённых высокоскоростной сетью, используемая для обучения и инференса LLM. Требует управления ресурсами и…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить GPU scheduling для multi-tenant

    …namespaceSelector: {} resourceGroups: - coveredResources: ["nvidia.com/gpu"] flavors: - name: gpu-flavor resources: - name: nvidia.com/gpu minCount: 2 # минимум 2 GPU

  • wikiGPU utilization

    # GPU utilization ## Определение Метрика, показывающая степень загрузки вычислительных блоков GPU во время выполнения задач. Низкое значение (<50%) указывает на узкие…

  • wikigpu-memory-utilization

    # gpu-memory-utilization ## Определение Параметр vLLM, определяющий долю видеопамяти GPU, используемую для инференса. Влияет на возможность включения chunked prefill и…

  • wikiGPU-экспортёр

    # GPU-экспортёр ## Определение Компонент для экспорта метрик GPU (загрузка, память) в систему мониторинга, например Prometheus. ## Где встречается - [[205. Настроить GPU

  • wikiCPU-GPU synchronization

    # CPU-GPU synchronization ## Определение Точки синхронизации между CPU и GPU, которые могут вызывать простои устройств при неправильном управлении асинхронностью. ## Где…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать topology-aware scheduling для K8s device plugin с учётом NVSwitch доменов

    …Добавьте механизм приоритетной выдачи [[Вики/GPU\|GPU]] По умолчанию [[Вики/Kubernetes device plugin\|device plugin]] распределяет [[Вики/GPU\|GPU]] в…

  • wikiGPU Direct

    # GPU Direct ## Определение Технология NVIDIA, позволяющая GPU напрямую обмениваться данными с другими устройствами (например, сетевыми адаптерами) без участия CPU. Ускоряет…

  • wikimulti-GPU inference

    # multi-GPU inference ## Определение Запуск модели на нескольких GPU для уменьшения задержки или увеличения пропускной способности; при tensor parallelism узким…

  • wikiGPU utilization drop

    # GPU utilization drop ## Определение Ситуация, когда загрузка GPU падает ниже ожидаемого уровня (например, <50%), что сигнализирует о проблемах с производительностью…

  • wikiNVIDIA GPU Operator

    # NVIDIA GPU Operator ## Определение Оператор Kubernetes для автоматизации управления GPU-ресурсами в кластере. Упрощает развёртывание драйверов, инструментов мониторинга и планирование…

  • wikiInter-GPU bandwidth

    # Inter-GPU bandwidth ## Определение Пропускная способность соединения между GPU (NVLink/NVSwitch vs PCIe), критичная для распределённого обучения и инференса. Влияет…

  • answerКак организовать GPU scheduling для multi-tenant LLM serving?

    …Физическая изоляция (Dedicated GPU) Простейший подход: каждому [[Вики/multi-tenant\|tenant]] выделяются фиксированные физические [[Вики/GPU\|GPU]]. Плюсы - Максимальная [[Вики…

  • answerКак работает tensor parallelism для LLM инференса? В чем отличие от pipeline parallelism?

    …Например, для модели с 32 [[Вики/Attention heads\|heads]] и 4 [[Вики/GPU\|GPU]]: каждый [[Вики/GPU\|GPU]] получает 8…

  • wikigpustat

    # gpustat ## Определение Утилита командной строки для просмотра состояния GPU, отображающая загрузку, память и процессы. ## Где встречается - [[224. vLLM кластер на…

  • answerЧто такое MIG (Multi-Instance GPU) и когда он полезен для LLM?

    …Что такое MIG (Multi-Instance GPU) и когда он полезен для LLM? ## Краткий тезис **MIG (GPU|Multi-Instance GPU)** — это…

  • answerКак работает sequence parallelism в контексте LLM?

    …Основные [[Вики/constraints\|ограничения]] одного [[Вики/GPU\|GPU]] - **ОЗУ ([[Вики/GPU memory\|VRAM]])**: даже [[Вики/Hopper GPU\|H100]] (80 ГБ…

  • answerЧто такое MIG (Multi-Instance GPU) и как настроить для разных LLM?

    …MIG (Multi-Instance GPU) [[Вики/Multi-Instance GPU\|MIG]] — это аппаратная [[Вики/API\|функция]], доступная на [[Вики/GPU\|GPU]] архитектуры…

  • wikigpu-burn

    # gpu-burn ## Определение Утилита для стресс-тестирования GPU, создающая максимальную нагрузку для проверки стабильности и охлаждения. ## Где встречается - [[72. Настроить…

  • wikiA100

    # A100 ## Определение Флагманская GPU NVIDIA архитектуры Ampere с 80GB памяти, поддерживающая MIG (Multi-Instance GPU) и широко используемая для инференса…

  • wikiGPU allocation

    # GPU allocation ## Определение Процесс распределения редких ресурсов GPU между LLM-агентами или задачами, часто с использованием механизмов аукциона (например, VCG…

  • answerЧто такое NCCL и почему он критичен для multi-GPU инференса?

    …Рассмотрим ключевые для [[Вики/multi-GPU inference\|multi-GPU]] инференса: - AllReduce — каждый GPU имеет свой тензор; после операции все GPU

  • wikiGPU affinity

    # GPU affinity ## Определение Привязка процессов или NUMA-узлов к конкретным GPU для оптимизации производительности и минимизации задержек при инференсе. ## Где…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: vLLM кластер на 4 GPU

    …Проверить доступные [[Вики/GPU\|GPU]] ```bash nvidia-smi nvidia-smi topo -m # topology (важно для TP) ``` Убедиться: ≥4 [[Вики/GPU

  • wikiVolcano

    # Volcano ## Определение Планировщик пакетных заданий для Kubernetes с поддержкой GPU scheduling, gang scheduling и fair-share; альтернатива Kueue для программного…

  • wikiPCIe

    # PCIe ## Определение Высокоскоростная последовательная шина для подключения периферийных устройств, особенно GPU. В LLM-инференсе является узким местом из-за ограниченной…

  • wikiMulti-Instance GPU

    # Multi-Instance GPU ## Определение Технология разделения GPU A100/H100 на изолированные инстансы для запуска разных LLM. ## Где встречается - [[Практика|Практика…

  • answerКак PCIe bottleneck проявляется в multi-GPU инференсе?

    …Позволяет [[Вики/GPU\|GPU]] обмениваться данными без участия CPU/PCIe. - [[Вики/multi-GPU inference\|Multi-GPU inference]] — запуск одной модели…

  • wikigdrcopy

    # gdrcopy ## Определение Утилита для проверки функциональности GPU Direct RDMA — технологии, позволяющей осуществлять прямой доступ к памяти GPU через RDMA без…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить expert parallelism для Mixtral

    …Измерить пиковое использование памяти на каждом GPU (до и после): ```python import subprocess def get_gpu_mem(gpu_id): result…

  • answerTensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса?

    …каждый [[Вики/GPU\|GPU]] хранит полную копию модели. Входящие [[Вики/Query\|запросы]] (батчи) делятся между [[Вики/GPU\|GPU]]. После [[Вики…

  • wikiDCGM_FI_DEV_GPU_UTIL

    # DCGM_FI_DEV_GPU_UTIL ## Определение Метрика GPU utilization, экспортируемая DCGM Exporter, показывающая процент времени, в течение которого GPU был…

  • wikiGPU time

    # GPU time ## Определение Мера вычислительных затрат, измеряемая в часах работы GPU. Используется для оценки стоимости инференса, fine-tuning и распределения…

  • wikiNCCL_NET_GDR_LEVEL

    # NCCL_NET_GDR_LEVEL ## Определение Переменная окружения для настройки GPU Direct RDMA, влияет на производительность меж-GPU коммуникаций. ## Где встречается…

  • answerЧто такое DeepSpeed ZeRO-Offload и когда он полезен?

    …каждый [[Вики/GPU\|GPU]] хранит только свою часть данных, а при необходимости получает недостающие части от других [[Вики/GPU\|GPU

  • wikiMPI

    …Настроить NVLink topology для 8x GPU|6. Настроить NVLink topology для 8x GPU]] - [[9. Профилировать network congestion на 64 GPU

  • wikiGPU серверы

    # GPU серверы ## Определение Серверы, оснащённые графическими процессорами (GPU), используемые для выполнения инференса больших языковых моделей. Требуют значительных капитальных вложений. ## Где…

  • wikiSpot GPU

    # Spot GPU ## Определение Самый дешёвый, но нестабильный вариант GPU для инференса. ## Где встречается - [[145. Сделать финансовую модель LLM-продукта|145…

  • wikioccupancy

    # occupancy ## Определение Мера загрузки вычислительных ресурсов GPU; отношение активных warp'ов к максимально возможному на SM. Высокая occupancy помогает скрыть…

  • wikiNCCL

    # NCCL ## Определение Библиотека NVIDIA для коллективных коммуникаций между GPU, критичная для multi-GPU инференса и обучения. ## Где встречается - [[307. Как…

  • wiki1 GPU

    # 1 GPU ## Определение Ограничение аппаратного обеспечения, при котором fine-tuning 70B модели возможно только с использованием методов сжатия, таких как…

  • answerЧто такое 3D parallelism (data + tensor + pipeline)?

    …DP — [[Вики/indexing\|утилизация]] большого количества [[Вики/GPU\|GPU]] при недостаточном батч-сайзе, TP — [[Вики/Memory\|память]] для гигантских слоёв…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить NVLink topology для 8× GPU

    …Ключевой результат Каждая из 8 [[Вики/GPU\|GPU]] получает прямой NVLink-доступ ([[Вики/Point-to-point communication\|peer access]]) ко…

  • wikinvidia-smi

    # nvidia-smi ## Определение CLI-утилита для мониторинга и управления NVIDIA GPU. Показывает текущую утилизацию, использование памяти, температуру и другие метрики…

  • wikiтопология GPU

    # топология GPU ## Определение Схема соединений GPU внутри узла и между узлами, влияющая на производительность распределённых вычислений. ## Где встречается - [[5. Сравнить…

  • answerКак работает FSDP (Fully Sharded Data Parallel) в PyTorch?

    …Каждый [[Вики/GPU\|GPU]] владеет уникальным фрагментом. - [[Вики/AllGather\|AllGather]] — коллективная операция, при которой каждый [[Вики/GPU\|GPU]] отправляет свой…

  • wikiGPU Inference

    # GPU Inference ## Определение Процесс выполнения предсказаний обученной модели на GPU. Является основным источником вычислительных затрат для LLM-продуктов. ## Где встречается…