Поиск

  • wikiтопология GPU

    # топология GPU ## Определение Схема соединений GPU внутри узла и между узлами, влияющая на производительность распределённых вычислений. ## Где встречается - [[5. Сравнить…

  • wikiGPU utilization drop

    # GPU utilization drop ## Определение Ситуация, когда загрузка GPU падает ниже ожидаемого уровня (например, <50%), что сигнализирует о проблемах с производительностью

  • wikiNCCL_NET_GDR_LEVEL

    # NCCL_NET_GDR_LEVEL ## Определение Переменная окружения для настройки GPU Direct RDMA, влияет на производительность меж-GPU коммуникаций. ## Где встречается…

  • wikiGuaranteed QoS

    # Guaranteed QoS ## Определение Гарантированное качество обслуживания для GPU-кластера, обеспечивающее резервирование ресурсов и предсказуемую производительность при выполнении задач. ## Где встречается…

  • wikiCPU sockets

    # CPU sockets ## Определение Физические разъёмы для CPU на материнской плате; расположение GPU и NIC относительно разных сокетов влияет на производительность

  • wikiCollNet

    # CollNet ## Определение Продвинутый алгоритм коллективных коммуникаций, доступный на GPU с NVLink, обеспечивающий более высокую производительность по сравнению со стандартными примитивами…

  • wikibunched kernel launches

    …Улучшает производительность на много-GPU системах. ## Где встречается - [[9. Профилировать network congestion на 64 GPU|9. Профилировать network congestion на…

  • wikitopology

    # topology ## Определение Схема соединений GPU, определяющая производительность коммуникаций (NVLink vs PCIe). ## Где встречается - [[1. Развернуть NCCL бенчмарк на 2-8…

  • wikinvidia-uvm

    …Упрощает разработку, но может влиять на производительность при интенсивном обмене данными. ## Где встречается - [[4. Настроить GPU Direct RDMA|4. Настроить…

  • wikiNoisy neighbor problem

    # Noisy neighbor problem ## Определение Ситуация в мультитенантных средах, когда один инстанс (GPU, процесс) потребляет общие ресурсы, ухудшая производительность других. Решения…

  • wikiCPU-bound

    # CPU-bound ## Определение Тип операций, где производительность ограничена CPU, а не GPU; требует особой параллелизации (например, парсинг PDF). ## Где встречается…

  • wikigpu-memory-utilization

    …определяющий долю видеопамяти GPU, используемую для инференса. Влияет на возможность включения chunked prefill и общую производительность. ## Где встречается - [[61. Как…

  • wikiCPU bottleneck

    # CPU bottleneck ## Определение Ситуация, когда скорость CPU ограничивает общую производительность, вызывая недозагрузку GPU. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация…

  • wikiasynchronous preprocessing

    # asynchronous preprocessing ## Определение Метод подготовки данных на CPU параллельно с работой GPU, снижающий простои и повышающий общую производительность инференса. ## Где…

  • wikiAttention kernel

    # Attention kernel ## Определение GPU-ядро, реализующее вычисление механизма внимания в LLM; его производительность чувствительна к ветвлениям и warp divergence. ## Где…

  • wikiNVLink topology

    # NVLink topology ## Определение Конфигурация физических соединений между GPU через NVLink, влияющая на производительность распределённых вычислений и требующая topology-aware placement…

  • wikiwrk

    производительность. ## Где встречается - [[305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU

  • wiki4th gen

    # 4th gen ## Определение Четвёртое поколение Tensor Cores в GPU H100, поддерживающее форматы FP8 и обеспечивающее повышенную производительность для обучения и…

  • answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?

    …Плюсы - Максимальная [[Вики/performance\|производительность]] на [[Вики/GPU\|GPU]] NVIDIA. - Хорошая поддержка [[Вики/8-bit quantization\|INT8]] квантования с калибровкой…

  • wikitensor-parallel-size

    …vLLM, определяющий количество GPU для распределения модели с помощью tensor parallelism. Влияет на масштабирование и производительность инференса. ## Где встречается - [[74…

  • answerЧто такое MIG (Multi-Instance GPU) и когда он полезен для LLM?

    …Влияние MIG на производительность LLM Эксперименты показывают: - Для моделей размером 7B latency на инстанс практически не отличается от полноценного GPU

  • wikiib_write_bw

    # ib_write_bw ## Определение Бенчмарк для измерения пропускной способности записи по протоколу InfiniBand, позволяющий проверить производительность канала между GPU в…

  • wikiUvicorn

    # Uvicorn ## Определение ASGI-сервер для запуска FastAPI-приложений, обеспечивающий высокую производительность и поддержку асинхронности. ## Где встречается - [[90. Как вы проектируете…

  • wikiBottleneck

    # Bottleneck ## Определение Компонент или этап системы, ограничивающий общую производительность; в контексте LLM это может быть пропускная способность памяти GPU, информационные…

  • wikioccupancy

    GPU; отношение активных warp'ов к максимально возможному на SM. Высокая occupancy помогает скрыть задержки HBM и повысить производительность. ## Где…

  • answerКак работает speculative execution на GPU для LLM (branch prediction)?

    …Вместо этого он жертвует производительностью части потоков ради простоты и масштабируемости. --- ## 3. Как GPU обрабатывает ветвления: детальный механизм Рассмотрим [[Вики…

  • answerКак работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100?

    производительность]]. **Пиковая [[Вики/performance\|производительность]] [[Вики/H100\|H100]] (на один SM):** | Формат | Операция | TFLOPS (на SM) | TFLOPS (всего GPU) | |--------|----------|----------------|---------------------| | FP16…

  • answerЧто такое TVM (Apache TVM) и зачем он нужен для AI инференса?

    …Сравнение с другими подходами | Инструмент | Тип | Преимущества | Недостатки | |------------|-----|--------------|------------| | [[Вики/TensorRT-LLM\|TensorRT]] | Оптимизатор NVIDIA | Высокая производительность на NVIDIA GPU, поддержка…

  • answerКак вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM?

    производительность инференса. --- ## 1. Термины: Nsight Systems, vLLM, bottleneck [[Вики/nsys\|Nsight Systems]] — инструмент для профилирования приложений, использующих [[Вики/GPU\|GPU

  • wikimemory-bound

    # memory-bound ## Определение Характеристика операции, где производительность ограничена пропускной способностью памяти, а не вычислительной мощностью. Типична для decode stage в…

  • answerЧто такое kernel fusion и как он применяется в LLM serving?

    …Что такое kernel fusion (слияние ядер) [[Вики/kernel\|Kernel]] в контексте GPU — это функция, выполняемая на устройстве (GPU) над большим…

  • answerКак работают Tensor Cores в H100/B200 и для чего они нужны?

    …В [[Вики/Hopper GPU\|H100]] ([[Вики/Hopper GPU\|архитектура Hopper]], 4-е поколение) и [[Вики/B200\|B200]] ([[Вики/Blackwell architecture…

  • answerЧто такое ONNX Runtime и когда он выгоден для LLM?

    …Отличная (CPU, GPU, NPU, mobile) | Только NVIDIA GPU | Только NVIDIA GPU | Зависит от бэкенда | | **Производительность (pure GPU)** | Хорошая, но уступает…

  • answerTensorRT-LLM vs vLLM — сравнение для production deployment?

    …Позволяет избежать фрагментации памяти и эффективно использовать [[Вики/GPU memory\|GPU memory]] при переменных длинах. --- ## 3. Когда выбирать TensorRT-LLM…

  • answerКак работает L1/L2 cache hierarchy в A100/H100 и как ее использовать для LLM?

    …Что такое data poisoning атака на fine-tuning и как защититься\|601]] | Как вы профилируете производительность GPU для LLM? | --- ## Навигация…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить GPU scheduling для multi-tenant

    …справедливое распределение]] GPU-ресурсов между несколькими командами (тенантами) в Kubernetes-кластере, обеспечивая изоляцию и предсказуемую [[Вики/performance\|производительность]]. Требуется реализовать…

  • answerЧто такое MIG (Multi-Instance GPU) и как настроить для разных LLM?

    …Вики/Multi-Instance GPU\|MIG]] обеспечивает аппаратную изоляцию: один инстанс не может повлиять на [[Вики/performance\|производительность]] другого, даже при…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить expert parallelism для Mixtral

    …Изменить количество экспертов на GPU (например, 3+3+1+1) и сравнить производительность. 4. Использовать `deepseed` / `inference` для expert parallelism…

  • wikiFP8

    …Используется на GPU H100 для ускорения матричных умножений (GEMM) в инференсе, обеспечивая пиковую производительность до 1979 TFLOPS. ## Где встречается - [[303…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить производительность NCCL ring и tree алгоритмов на разном масштабе GPU

    …Сравнить производительность NCCL ring и tree алгоритмов на разном масштабе GPU ## 1. Цель задачи Провести количественное сравнение алгоритмов коллективных коммуникаций…

  • answerКак вы деплоите LLM с TensorRT-LLM в production?

    …один pip install) | Высокая (Docker) | | [[Вики/performance\|Производительность]] | Лучшая для NVIDIA GPU | Очень хорошая | Хорошая | | Экосистема | Triton, Kubernetes | Встроенный сервер…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать memory fragmentation на GPU

    …2. [[Вики/Проверить производительность\|Проверить производительность]] - Замерить время выполнения до и после. Оптимизация не должна увеличить latency более чем на…

  • answerКак вы диагностируете, что проблема в memory bandwidth, а не в compute?

    …Для точной диагностики применяют **[[Вики/roofline model\|roofline model]]** и сравнивают арифметическую интенсивность операций с пиковой производительностью. --- ## 1. Термины: Compute…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть NCCL бенчмарк на 2-8 GPU

    GPU\|GPU]]) и [[Вики/PCIe\|PCIe]] (через CPU/Root Complex). В результате вы сможете быстро оценить реальную [[Вики/performance\|производительность

  • answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?

    …Также доступна версия [[Вики/H100\|H100]] NVL с 188 ГБ (два [[Вики/GPU\|GPU]] через [[Вики/NVLink\|NVLink]]). - Вычислительная [[Вики…

  • answerКак работает warp scheduling на NVIDIA GPU и как это влияет на LLM kernels?

    …На GPU это часто эффективнее divergence, если ветви короткие. FlashAttention использует predication для causal mask. ### 4.3 Производительность FlashAttention достигает…

  • answerПочему 4-bit inference иногда медленнее 8-bit?

    …объём данных, передаваемых из глобальной памяти [[Вики/GPU\|GPU]] ([[Вики/GPU memory\|VRAM]]) в регистры/SRAM. Чем меньше разрядность, тем…

  • answerЧто такое warp divergence в CUDA и как он влияет на attention?

    …Warp и SIMT-модель **[[Вики/Warp\|Warp]]** — это базовая единица планирования в [[Вики/CUDA\|CUDA]]. [[Вики/GPU\|GPU]] NVIDIA объединяет…

  • answerКак вы разворачиваете LLM в production (self-hosted)?

    …batching]] | Максимальная производительность на NVIDIA GPU (до 4x ускорение) | Сложность компиляции, привязка к hardware, требуется NVIDIA GPU | | **DeepSpeed (DeepSpeed-MII…

  • answerКак организовать GPU scheduling для multi-tenant LLM serving?

    …Физическая изоляция (Dedicated GPU) Простейший подход: каждому [[Вики/multi-tenant\|tenant]] выделяются фиксированные физические [[Вики/GPU\|GPU]]. Плюсы - Максимальная [[Вики…