Поиск

wikiHopper GPU
# Hopper GPU ## Определение Микроархитектура GPU, поддерживающая WGMMA и TMA для ускорения FlashAttention-3; используется для высокопроизводительного инференса LLM. ## Где встречается…
wikiHorizontal Pod Autoscaler
…или GPU utilization. ## Где встречается - [[205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205…
wikidecoder-only model
# decoder-only model ## Определение Архитектура LLM, состоящая только из декодера (например, LLaMA), типичный объект профилирования GPU. ## Где встречается - [[305. Как…
wikiNVLink 5.0
# NVLink 5.0 ## Определение Пятое поколение NVLink (архитектура Hopper/H100) с увеличенной пропускной способностью по сравнению с предыдущим поколением. ## Где…
wikiInfiniBand
…reqs Архитектура.]] - [[307. Как PCIe bottleneck проявляется в multi-GPU инференсе|307. Как PCIe bottleneck проявляется в multi-GPU инференсе…
wikiNUMA
# NUMA ## Определение Архитектура памяти, в которой время доступа зависит от расположения процессора и памяти; на AMD EPYC неправильная настройка может…
wikiGPU utilization
# GPU utilization ## Определение Метрика, показывающая степень загрузки вычислительных блоков GPU во время выполнения задач. Низкое значение (<50%) указывает на узкие…
wikiARM Neoverse V2
…Архитектура процессора, используемая в NVIDIA Grace CPU, требующая перекомпиляции библиотек для совместимости. ## Где встречается - [[709. NVIDIA Grace Hopper CPU-GPU…
wikiB200
# B200 ## Определение GPU от NVIDIA поколения Blackwell с увеличенной памятью (192 GB) и пропускной способностью, предназначенный для LLM inference с…
answerNVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет LLM serving?
…Традиционная архитектура CPU-GPU: узкое место PCIe В классических серверах (x86 + [[Вики/GPU\|GPU]] через [[Вики/PCIe\|PCIe]]) [[Вики/CPU…
wikiBlackwell architecture
# Blackwell architecture ## Определение Архитектура GPU NVIDIA B200 с пятым поколением Tensor Cores и TMA (Tensor Memory Accelerator) для ускорения операций…
wikiTensor parallelism
…для multi-GPU инференса]] - [[403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403. Как вы…
wikiA100
# A100 ## Определение Флагманская GPU NVIDIA архитектуры Ampere с 80GB памяти, поддерживающая MIG (Multi-Instance GPU) и широко используемая для инференса…
wikiCDNA3
# CDNA3 ## Определение Архитектура GPU AMD, требующая оптимизации под ROCm ## Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия…
wikiLSTM
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[549. Как вы…
wikiPipeline parallelism
# Pipeline parallelism ## Определение Стратегия распараллеливания, при которой модель разрезается по слоям между узлами (GPU); требует микробатчей и страдает от pipeline…
answerКак вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?
…Влияние hardware (GPU, CUDA) на efficiency GPU архитектура определяет, насколько эффективно выполняются операции: - [[Вики/Tensor Cores\|Tensor Cores]] — ускоряют матричные…
wikiPoint-to-point communication
…Развернуть NCCL бенчмарк на 2-8 GPU|1. Развернуть NCCL бенчмарк на 2-8 GPU]] - [[4. Настроить GPU Direct RDMA…
wikiH100
…Как PCIe bottleneck проявляется в multi-GPU инференсе|307. Как PCIe bottleneck проявляется в multi-GPU инференсе]] - [[312. Как работает…
wikiOpenVINO
…оборудовании Intel (CPU, GPU, NPU). Поддерживает INT8-квантизацию и оптимизирован для высокой производительности на Intel-архитектурах. ## Где встречается - [[320. Что…
answerКак работает NVLink Switch System на DGX H100?
…3. Архитектура DGX H100: 8 GPU, 4 NVSwitch Внутри [[Вики/DGX H100\|DGX H100]]: - 8 [[Вики/GPU\|GPU]] [[Вики/H100…
wikimulti-tenant
# multi-tenant ## Определение Архитектура, при которой одна инстанция ПО обслуживает несколько логических клиентов (тенантов). Каждому тенанту может выделяться гарантированная доля…
wikiGPTQ
# GPTQ ## Определение Метод квантизации весов LLM для GPU, typically 2–4 бита, с оптимизацией через Hessian. Требует калибровки на датасете…
wikiFlashAttention
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[201. Что такое…
wikiActive-passive
# Active-passive ## Определение Архитектура с одним активным регионом и одним или несколькими резервными (standby), которые активируются при сбое; переключение занимает…
answerКак работают Tensor Cores в H100/B200 и для чего они нужны?
…В [[Вики/Hopper GPU\|H100]] ([[Вики/Hopper GPU\|архитектура Hopper]], 4-е поколение) и [[Вики/B200\|B200]] ([[Вики/Blackwell architecture…
answerКак вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.
…Конфигурация для 10k RPS - Несколько GPU-инстансов (например, [[Вики/A100\|NVIDIA A100]] или [[Вики/Hopper GPU\|H100]]). - [[Вики/Paged Attention…
answerЧто такое NCCL и почему он критичен для multi-GPU инференса?
…Рассмотрим ключевые для [[Вики/multi-GPU inference\|multi-GPU]] инференса: - AllReduce — каждый GPU имеет свой тензор; после операции все GPU…
wikibatch size
# batch size ## Определение Гиперпараметр, определяющий количество примеров, обрабатываемых за один проход; влияет на стабильность обучения, эффективность квантизации и утилизацию GPU…
wikiTinyLlama
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[289. Как работает…
wikicontinuous batching
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
answerTensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса?
…каждый [[Вики/GPU\|GPU]] хранит полную копию модели. Входящие [[Вики/Query\|запросы]] (батчи) делятся между [[Вики/GPU\|GPU]]. После [[Вики…
wikiVLLM
# VLLM ## Определение Библиотека для высокопроизводительного инференса LLM, использующая Paged Attention и continuous batching для эффективного использования GPU памяти и увеличения…
answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Архитектура NVIDIA H100 (Hopper) [[Вики/Hopper GPU\|H100]] построен на архитектуре [[Вики/H100\|Hopper]] и является монолитным кристаллом (один чип…
answerКак PCIe bottleneck проявляется в multi-GPU инференсе?
…Архитектура multi-GPU систем: PCIe switch vs NVSwitch В современных серверах [[Вики/GPU\|GPU]] могут соединяться двумя способами: | Архитектура | Описание…
answerКак вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.
…по user_id и автомасштабирование LLM реплик по GPU utilization. Такая архитектура позволяет выдерживать пиковую нагрузку при соблюдении жёсткого SLA…
wikiAWQ
…vLLM кластер на 4 GPU|224. vLLM кластер на 4 GPU]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiResNet
# ResNet ## Определение Архитектура свёрточной нейронной сети с остаточными связями, позволяющая обучать глубокие модели. Используется как энкодер изображений в CLIP наряду…
wikiLocust
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
answerЧто такое expert parallelism для MoE моделей (Mixtral)?
…При размере эксперта 7B и 8 экспертах это 56B параметров на каждом [[Вики/GPU\|GPU]]. Уже на одном [[Вики/GPU…
answerКак работает asynchronous execution на Hopper (copy engine vs compute)?
…Как работает asynchronous execution на Hopper (copy engine vs compute)? ## Краткий тезис Архитектура [[Вики/Hopper GPU\|NVIDIA Hopper]] ([[Вики/Hopper…
answerКак вы деплоите LLM с requirement <100ms latency при throughput 1000 req/s? Архитектура.
…H100x4) → vLLM Replica 2 (GPU: H100x4) → vLLM Replica 3 (GPU: H100x4) → vLLM Replica 4 (GPU: H100x4) → vLLM Replica 5 (GPU…
wikiTensorRT-LLM
# TensorRT-LLM ## Определение Библиотека от NVIDIA для оптимизации инференса LLM на GPU, использующая MLIR и операторные оптимизации. Обеспечивает высокую производительность…
wikiTTFT
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
…Сравнительная таблица FA2 vs FA3 | Характеристика | FlashAttention-2 | FlashAttention-3 | |----------------|------------------|------------------| | Архитектура GPU | Ampere (A100), Turing (V100) | Hopper (H100/H800) | | Инструкции…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Рассчитать TCO RAG-системы на 1 год
…GPU on-premise для embedding, облако для LLM API | | Стоимость GPU/NVIDIA | NVIDIA A100 80 GB (цена покупки ~$15 000…
answerКакие trade-offs между разными архитектурами speculative decoding?
…является ограничением (например, несколько [[Вики/GPU\|GPU]]), а простота реализации важнее максимального ускорения. --- ## 3. Архитектура Self-Speculative (Medusa) [[Вики/Self…
answerКак работает tensor parallelism для LLM инференса? В чем отличие от pipeline parallelism?
…Например, для модели с 32 [[Вики/Attention heads\|heads]] и 4 [[Вики/GPU\|GPU]]: каждый [[Вики/GPU\|GPU]] получает 8…
answerЧто такое MIG (Multi-Instance GPU) и как настроить для разных LLM?
…критично для production-систем. --- ## 2. Архитектура MIG: как это работает Физический [[Вики/GPU\|GPU]] A100/H100 состоит из множества **SM…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить expert parallelism для Mixtral
…Измерить пиковое использование памяти на каждом GPU (до и после): ```python import subprocess def get_gpu_mem(gpu_id): result…