Поиск

  • wikiHopper GPU

    # Hopper GPU ## Определение Микроархитектура GPU, поддерживающая WGMMA и TMA для ускорения FlashAttention-3; используется для высокопроизводительного инференса LLM. ## Где встречается…

  • wikiHorizontal Pod Autoscaler

    …или GPU utilization. ## Где встречается - [[205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205…

  • wikidecoder-only model

    # decoder-only model ## Определение Архитектура LLM, состоящая только из декодера (например, LLaMA), типичный объект профилирования GPU. ## Где встречается - [[305. Как…

  • wikiNVLink 5.0

    # NVLink 5.0 ## Определение Пятое поколение NVLink (архитектура Hopper/H100) с увеличенной пропускной способностью по сравнению с предыдущим поколением. ## Где…

  • wikiInfiniBand

    …reqs Архитектура.]] - [[307. Как PCIe bottleneck проявляется в multi-GPU инференсе|307. Как PCIe bottleneck проявляется в multi-GPU инференсе…

  • wikiNUMA

    # NUMA ## Определение Архитектура памяти, в которой время доступа зависит от расположения процессора и памяти; на AMD EPYC неправильная настройка может…

  • wikiGPU utilization

    # GPU utilization ## Определение Метрика, показывающая степень загрузки вычислительных блоков GPU во время выполнения задач. Низкое значение (<50%) указывает на узкие…

  • wikiARM Neoverse V2

    Архитектура процессора, используемая в NVIDIA Grace CPU, требующая перекомпиляции библиотек для совместимости. ## Где встречается - [[709. NVIDIA Grace Hopper CPU-GPU

  • wikiB200

    # B200 ## Определение GPU от NVIDIA поколения Blackwell с увеличенной памятью (192 GB) и пропускной способностью, предназначенный для LLM inference с…

  • answerNVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет LLM serving?

    …Традиционная архитектура CPU-GPU: узкое место PCIe В классических серверах (x86 + [[Вики/GPU\|GPU]] через [[Вики/PCIe\|PCIe]]) [[Вики/CPU…

  • wikiBlackwell architecture

    # Blackwell architecture ## Определение Архитектура GPU NVIDIA B200 с пятым поколением Tensor Cores и TMA (Tensor Memory Accelerator) для ускорения операций…

  • wikiTensor parallelism

    …для multi-GPU инференса]] - [[403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403. Как вы…

  • wikiA100

    # A100 ## Определение Флагманская GPU NVIDIA архитектуры Ampere с 80GB памяти, поддерживающая MIG (Multi-Instance GPU) и широко используемая для инференса…

  • wikiCDNA3

    # CDNA3 ## Определение Архитектура GPU AMD, требующая оптимизации под ROCm ## Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия…

  • wikiLSTM

    …Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[549. Как вы…

  • wikiPipeline parallelism

    # Pipeline parallelism ## Определение Стратегия распараллеливания, при которой модель разрезается по слоям между узлами (GPU); требует микробатчей и страдает от pipeline…

  • answerКак вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?

    …Влияние hardware (GPU, CUDA) на efficiency GPU архитектура определяет, насколько эффективно выполняются операции: - [[Вики/Tensor Cores\|Tensor Cores]] — ускоряют матричные…

  • wikiPoint-to-point communication

    …Развернуть NCCL бенчмарк на 2-8 GPU|1. Развернуть NCCL бенчмарк на 2-8 GPU]] - [[4. Настроить GPU Direct RDMA…

  • wikiH100

    …Как PCIe bottleneck проявляется в multi-GPU инференсе|307. Как PCIe bottleneck проявляется в multi-GPU инференсе]] - [[312. Как работает…

  • wikiOpenVINO

    …оборудовании Intel (CPU, GPU, NPU). Поддерживает INT8-квантизацию и оптимизирован для высокой производительности на Intel-архитектурах. ## Где встречается - [[320. Что…

  • answerКак работает NVLink Switch System на DGX H100?

    …3. Архитектура DGX H100: 8 GPU, 4 NVSwitch Внутри [[Вики/DGX H100\|DGX H100]]: - 8 [[Вики/GPU\|GPU]] [[Вики/H100…

  • wikimulti-tenant

    # multi-tenant ## Определение Архитектура, при которой одна инстанция ПО обслуживает несколько логических клиентов (тенантов). Каждому тенанту может выделяться гарантированная доля…

  • wikiGPTQ

    # GPTQ ## Определение Метод квантизации весов LLM для GPU, typically 2–4 бита, с оптимизацией через Hessian. Требует калибровки на датасете…

  • wikiFlashAttention

    …Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[201. Что такое…

  • wikiActive-passive

    # Active-passive ## Определение Архитектура с одним активным регионом и одним или несколькими резервными (standby), которые активируются при сбое; переключение занимает…

  • answerКак работают Tensor Cores в H100/B200 и для чего они нужны?

    …В [[Вики/Hopper GPU\|H100]] ([[Вики/Hopper GPU\|архитектура Hopper]], 4-е поколение) и [[Вики/B200\|B200]] ([[Вики/Blackwell architecture…

  • answerКак вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.

    …Конфигурация для 10k RPS - Несколько GPU-инстансов (например, [[Вики/A100\|NVIDIA A100]] или [[Вики/Hopper GPU\|H100]]). - [[Вики/Paged Attention…

  • answerЧто такое NCCL и почему он критичен для multi-GPU инференса?

    …Рассмотрим ключевые для [[Вики/multi-GPU inference\|multi-GPU]] инференса: - AllReduce — каждый GPU имеет свой тензор; после операции все GPU

  • wikibatch size

    # batch size ## Определение Гиперпараметр, определяющий количество примеров, обрабатываемых за один проход; влияет на стабильность обучения, эффективность квантизации и утилизацию GPU

  • wikiTinyLlama

    …Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[289. Как работает…

  • wikicontinuous batching

    …Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…

  • answerTensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса?

    …каждый [[Вики/GPU\|GPU]] хранит полную копию модели. Входящие [[Вики/Query\|запросы]] (батчи) делятся между [[Вики/GPU\|GPU]]. После [[Вики…

  • wikiVLLM

    # VLLM ## Определение Библиотека для высокопроизводительного инференса LLM, использующая Paged Attention и continuous batching для эффективного использования GPU памяти и увеличения…

  • answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?

    Архитектура NVIDIA H100 (Hopper) [[Вики/Hopper GPU\|H100]] построен на архитектуре [[Вики/H100\|Hopper]] и является монолитным кристаллом (один чип…

  • answerКак PCIe bottleneck проявляется в multi-GPU инференсе?

    Архитектура multi-GPU систем: PCIe switch vs NVSwitch В современных серверах [[Вики/GPU\|GPU]] могут соединяться двумя способами: | Архитектура | Описание…

  • answerКак вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.

    …по user_id и автомасштабирование LLM реплик по GPU utilization. Такая архитектура позволяет выдерживать пиковую нагрузку при соблюдении жёсткого SLA…

  • wikiAWQ

    …vLLM кластер на 4 GPU|224. vLLM кластер на 4 GPU]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiResNet

    # ResNet ## Определение Архитектура свёрточной нейронной сети с остаточными связями, позволяющая обучать глубокие модели. Используется как энкодер изображений в CLIP наряду…

  • wikiLocust

    …Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…

  • answerЧто такое expert parallelism для MoE моделей (Mixtral)?

    …При размере эксперта 7B и 8 экспертах это 56B параметров на каждом [[Вики/GPU\|GPU]]. Уже на одном [[Вики/GPU

  • answerКак работает asynchronous execution на Hopper (copy engine vs compute)?

    …Как работает asynchronous execution на Hopper (copy engine vs compute)? ## Краткий тезис Архитектура [[Вики/Hopper GPU\|NVIDIA Hopper]] ([[Вики/Hopper…

  • answerКак вы деплоите LLM с requirement <100ms latency при throughput 1000 req/s? Архитектура.

    …H100x4) → vLLM Replica 2 (GPU: H100x4) → vLLM Replica 3 (GPU: H100x4) → vLLM Replica 4 (GPU: H100x4) → vLLM Replica 5 (GPU

  • wikiTensorRT-LLM

    # TensorRT-LLM ## Определение Библиотека от NVIDIA для оптимизации инференса LLM на GPU, использующая MLIR и операторные оптимизации. Обеспечивает высокую производительность…

  • wikiTTFT

    …NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…

  • answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?

    …Сравнительная таблица FA2 vs FA3 | Характеристика | FlashAttention-2 | FlashAttention-3 | |----------------|------------------|------------------| | Архитектура GPU | Ampere (A100), Turing (V100) | Hopper (H100/H800) | | Инструкции…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Рассчитать TCO RAG-системы на 1 год

    GPU on-premise для embedding, облако для LLM API | | Стоимость GPU/NVIDIA | NVIDIA A100 80 GB (цена покупки ~$15 000…

  • answerКакие trade-offs между разными архитектурами speculative decoding?

    …является ограничением (например, несколько [[Вики/GPU\|GPU]]), а простота реализации важнее максимального ускорения. --- ## 3. Архитектура Self-Speculative (Medusa) [[Вики/Self…

  • answerКак работает tensor parallelism для LLM инференса? В чем отличие от pipeline parallelism?

    …Например, для модели с 32 [[Вики/Attention heads\|heads]] и 4 [[Вики/GPU\|GPU]]: каждый [[Вики/GPU\|GPU]] получает 8…

  • answerЧто такое MIG (Multi-Instance GPU) и как настроить для разных LLM?

    …критично для production-систем. --- ## 2. Архитектура MIG: как это работает Физический [[Вики/GPU\|GPU]] A100/H100 состоит из множества **SM…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить expert parallelism для Mixtral

    …Измерить пиковое использование памяти на каждом GPU (до и после): ```python import subprocess def get_gpu_mem(gpu_id): result…