Поиск
- wikiтопология GPU
# топология GPU ## Определение Схема соединений GPU внутри узла и между узлами, влияющая на производительность распределённых вычислений. ## Где встречается - [[5. Сравнить…
- wikiGPU utilization drop
# GPU utilization drop ## Определение Ситуация, когда загрузка GPU падает ниже ожидаемого уровня (например, <50%), что сигнализирует о проблемах с производительностью…
- wikiNCCL_NET_GDR_LEVEL
# NCCL_NET_GDR_LEVEL ## Определение Переменная окружения для настройки GPU Direct RDMA, влияет на производительность меж-GPU коммуникаций. ## Где встречается…
- wikiGuaranteed QoS
# Guaranteed QoS ## Определение Гарантированное качество обслуживания для GPU-кластера, обеспечивающее резервирование ресурсов и предсказуемую производительность при выполнении задач. ## Где встречается…
- wikiCPU sockets
# CPU sockets ## Определение Физические разъёмы для CPU на материнской плате; расположение GPU и NIC относительно разных сокетов влияет на производительность…
- wikiCollNet
# CollNet ## Определение Продвинутый алгоритм коллективных коммуникаций, доступный на GPU с NVLink, обеспечивающий более высокую производительность по сравнению со стандартными примитивами…
- wikibunched kernel launches
…Улучшает производительность на много-GPU системах. ## Где встречается - [[9. Профилировать network congestion на 64 GPU|9. Профилировать network congestion на…
- wikitopology
# topology ## Определение Схема соединений GPU, определяющая производительность коммуникаций (NVLink vs PCIe). ## Где встречается - [[1. Развернуть NCCL бенчмарк на 2-8…
- wikinvidia-uvm
…Упрощает разработку, но может влиять на производительность при интенсивном обмене данными. ## Где встречается - [[4. Настроить GPU Direct RDMA|4. Настроить…
- wikiNoisy neighbor problem
# Noisy neighbor problem ## Определение Ситуация в мультитенантных средах, когда один инстанс (GPU, процесс) потребляет общие ресурсы, ухудшая производительность других. Решения…
- wikiCPU-bound
# CPU-bound ## Определение Тип операций, где производительность ограничена CPU, а не GPU; требует особой параллелизации (например, парсинг PDF). ## Где встречается…
- wikigpu-memory-utilization
…определяющий долю видеопамяти GPU, используемую для инференса. Влияет на возможность включения chunked prefill и общую производительность. ## Где встречается - [[61. Как…
- wikiCPU bottleneck
# CPU bottleneck ## Определение Ситуация, когда скорость CPU ограничивает общую производительность, вызывая недозагрузку GPU. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация…
- wikiasynchronous preprocessing
# asynchronous preprocessing ## Определение Метод подготовки данных на CPU параллельно с работой GPU, снижающий простои и повышающий общую производительность инференса. ## Где…
- wikiAttention kernel
# Attention kernel ## Определение GPU-ядро, реализующее вычисление механизма внимания в LLM; его производительность чувствительна к ветвлениям и warp divergence. ## Где…
- wikiNVLink topology
# NVLink topology ## Определение Конфигурация физических соединений между GPU через NVLink, влияющая на производительность распределённых вычислений и требующая topology-aware placement…
- wikiwrk
…производительность. ## Где встречается - [[305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU…
- wiki4th gen
# 4th gen ## Определение Четвёртое поколение Tensor Cores в GPU H100, поддерживающее форматы FP8 и обеспечивающее повышенную производительность для обучения и…
- answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?
…Плюсы - Максимальная [[Вики/performance\|производительность]] на [[Вики/GPU\|GPU]] NVIDIA. - Хорошая поддержка [[Вики/8-bit quantization\|INT8]] квантования с калибровкой…
- wikitensor-parallel-size
…vLLM, определяющий количество GPU для распределения модели с помощью tensor parallelism. Влияет на масштабирование и производительность инференса. ## Где встречается - [[74…
- answerЧто такое MIG (Multi-Instance GPU) и когда он полезен для LLM?
…Влияние MIG на производительность LLM Эксперименты показывают: - Для моделей размером 7B latency на инстанс практически не отличается от полноценного GPU…
- wikiib_write_bw
# ib_write_bw ## Определение Бенчмарк для измерения пропускной способности записи по протоколу InfiniBand, позволяющий проверить производительность канала между GPU в…
- wikiUvicorn
# Uvicorn ## Определение ASGI-сервер для запуска FastAPI-приложений, обеспечивающий высокую производительность и поддержку асинхронности. ## Где встречается - [[90. Как вы проектируете…
- wikiBottleneck
# Bottleneck ## Определение Компонент или этап системы, ограничивающий общую производительность; в контексте LLM это может быть пропускная способность памяти GPU, информационные…
- wikioccupancy
…GPU; отношение активных warp'ов к максимально возможному на SM. Высокая occupancy помогает скрыть задержки HBM и повысить производительность. ## Где…
- answerКак работает speculative execution на GPU для LLM (branch prediction)?
…Вместо этого он жертвует производительностью части потоков ради простоты и масштабируемости. --- ## 3. Как GPU обрабатывает ветвления: детальный механизм Рассмотрим [[Вики…
- answerКак работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100?
…производительность]]. **Пиковая [[Вики/performance\|производительность]] [[Вики/H100\|H100]] (на один SM):** | Формат | Операция | TFLOPS (на SM) | TFLOPS (всего GPU) | |--------|----------|----------------|---------------------| | FP16…
- answerЧто такое TVM (Apache TVM) и зачем он нужен для AI инференса?
…Сравнение с другими подходами | Инструмент | Тип | Преимущества | Недостатки | |------------|-----|--------------|------------| | [[Вики/TensorRT-LLM\|TensorRT]] | Оптимизатор NVIDIA | Высокая производительность на NVIDIA GPU, поддержка…
- answerКак вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM?
…производительность инференса. --- ## 1. Термины: Nsight Systems, vLLM, bottleneck [[Вики/nsys\|Nsight Systems]] — инструмент для профилирования приложений, использующих [[Вики/GPU\|GPU…
- wikimemory-bound
# memory-bound ## Определение Характеристика операции, где производительность ограничена пропускной способностью памяти, а не вычислительной мощностью. Типична для decode stage в…
- answerЧто такое kernel fusion и как он применяется в LLM serving?
…Что такое kernel fusion (слияние ядер) [[Вики/kernel\|Kernel]] в контексте GPU — это функция, выполняемая на устройстве (GPU) над большим…
- answerКак работают Tensor Cores в H100/B200 и для чего они нужны?
…В [[Вики/Hopper GPU\|H100]] ([[Вики/Hopper GPU\|архитектура Hopper]], 4-е поколение) и [[Вики/B200\|B200]] ([[Вики/Blackwell architecture…
- answerЧто такое ONNX Runtime и когда он выгоден для LLM?
…Отличная (CPU, GPU, NPU, mobile) | Только NVIDIA GPU | Только NVIDIA GPU | Зависит от бэкенда | | **Производительность (pure GPU)** | Хорошая, но уступает…
- answerTensorRT-LLM vs vLLM — сравнение для production deployment?
…Позволяет избежать фрагментации памяти и эффективно использовать [[Вики/GPU memory\|GPU memory]] при переменных длинах. --- ## 3. Когда выбирать TensorRT-LLM…
- answerКак работает L1/L2 cache hierarchy в A100/H100 и как ее использовать для LLM?
…Что такое data poisoning атака на fine-tuning и как защититься\|601]] | Как вы профилируете производительность GPU для LLM? | --- ## Навигация…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить GPU scheduling для multi-tenant
…справедливое распределение]] GPU-ресурсов между несколькими командами (тенантами) в Kubernetes-кластере, обеспечивая изоляцию и предсказуемую [[Вики/performance\|производительность]]. Требуется реализовать…
- answerЧто такое MIG (Multi-Instance GPU) и как настроить для разных LLM?
…Вики/Multi-Instance GPU\|MIG]] обеспечивает аппаратную изоляцию: один инстанс не может повлиять на [[Вики/performance\|производительность]] другого, даже при…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить expert parallelism для Mixtral
…Изменить количество экспертов на GPU (например, 3+3+1+1) и сравнить производительность. 4. Использовать `deepseed` / `inference` для expert parallelism…
- wikiFP8
…Используется на GPU H100 для ускорения матричных умножений (GEMM) в инференсе, обеспечивая пиковую производительность до 1979 TFLOPS. ## Где встречается - [[303…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить производительность NCCL ring и tree алгоритмов на разном масштабе GPU
…Сравнить производительность NCCL ring и tree алгоритмов на разном масштабе GPU ## 1. Цель задачи Провести количественное сравнение алгоритмов коллективных коммуникаций…
- answerКак вы деплоите LLM с TensorRT-LLM в production?
…один pip install) | Высокая (Docker) | | [[Вики/performance\|Производительность]] | Лучшая для NVIDIA GPU | Очень хорошая | Хорошая | | Экосистема | Triton, Kubernetes | Встроенный сервер…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать memory fragmentation на GPU
…2. [[Вики/Проверить производительность\|Проверить производительность]] - Замерить время выполнения до и после. Оптимизация не должна увеличить latency более чем на…
- answerКак вы диагностируете, что проблема в memory bandwidth, а не в compute?
…Для точной диагностики применяют **[[Вики/roofline model\|roofline model]]** и сравнивают арифметическую интенсивность операций с пиковой производительностью. --- ## 1. Термины: Compute…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть NCCL бенчмарк на 2-8 GPU
…GPU\|GPU]]) и [[Вики/PCIe\|PCIe]] (через CPU/Root Complex). В результате вы сможете быстро оценить реальную [[Вики/performance\|производительность…
- answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Также доступна версия [[Вики/H100\|H100]] NVL с 188 ГБ (два [[Вики/GPU\|GPU]] через [[Вики/NVLink\|NVLink]]). - Вычислительная [[Вики…
- answerКак работает warp scheduling на NVIDIA GPU и как это влияет на LLM kernels?
…На GPU это часто эффективнее divergence, если ветви короткие. FlashAttention использует predication для causal mask. ### 4.3 Производительность FlashAttention достигает…
- answerПочему 4-bit inference иногда медленнее 8-bit?
…объём данных, передаваемых из глобальной памяти [[Вики/GPU\|GPU]] ([[Вики/GPU memory\|VRAM]]) в регистры/SRAM. Чем меньше разрядность, тем…
- answerЧто такое warp divergence в CUDA и как он влияет на attention?
…Warp и SIMT-модель **[[Вики/Warp\|Warp]]** — это базовая единица планирования в [[Вики/CUDA\|CUDA]]. [[Вики/GPU\|GPU]] NVIDIA объединяет…
- answerКак вы разворачиваете LLM в production (self-hosted)?
…batching]] | Максимальная производительность на NVIDIA GPU (до 4x ускорение) | Сложность компиляции, привязка к hardware, требуется NVIDIA GPU | | **DeepSpeed (DeepSpeed-MII…
- answerКак организовать GPU scheduling для multi-tenant LLM serving?
…Физическая изоляция (Dedicated GPU) Простейший подход: каждому [[Вики/multi-tenant\|tenant]] выделяются фиксированные физические [[Вики/GPU\|GPU]]. Плюсы - Максимальная [[Вики…