Поиск

  • wikiGrace Hopper

    # Grace Hopper ## Определение Суперчип NVIDIA, объединяющий CPU Grace и GPU Hopper с unified memory через NVLink-C2C, упрощающий LLM serving…

  • wikiHopper GPU

    # Hopper GPU ## Определение Микроархитектура GPU, поддерживающая WGMMA и TMA для ускорения FlashAttention-3; используется для высокопроизводительного инференса LLM. ## Где встречается…

  • wikiCuTe

    # CuTe ## Определение Библиотека описания тензорных операций, интегрируемая с TMA (Tensor Memory Accelerator) на GPU Hopper. ## Где встречается - [[707. Как работает…

  • wikiLPDDR5X

    # LPDDR5X ## Определение Тип оперативной памяти CPU в архитектуре NVIDIA Grace Hopper, используемый для быстрого хранения KV cache при инференсе LLM…

  • wikiCopy Engine

    # Copy Engine ## Определение Аппаратные блоки в архитектуре Hopper (H100), предназначенные для асинхронного копирования данных между хостом и устройством, отдельно от…

  • wikiNVLink-C2C

    # NVLink-C2C ## Определение Высокоскоростной интерконнект (900 ГБ/с) между CPU Grace и GPU H100 в архитектуре Grace Hopper, обеспечивающий unified…

  • wikicp.async.bulk

    # cp.async.bulk ## Определение PTX-инструкция для асинхронного копирования данных через Tensor Memory Accelerator на GPU Hopper, применяемая в оптимизированных…

  • wikiH100

    # H100 ## Определение Графический процессор NVIDIA архитектуры Hopper с поддержкой FP8 через Transformer Engine и MIG, ключевой для инференса LLM. ## Где…

  • wikiPTX

    # PTX ## Определение Низкоуровневый ассемблер NVIDIA для GPU, используемый для программирования Tensor Cores и TMA (Tensor Memory Accelerator) на архитектуре Hopper

  • wikiKernel launch

    …Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…

  • wikiARM Neoverse V2

    …NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…

  • wikiCompute engine

    …Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…

  • wikiAsynchronous Execution

    …Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…

  • wikiGPU memory management

    …Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…

  • wikitranspose

    …Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…

  • wikiswizzle

    …Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…

  • wikiPCIe Gen5

    …Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…

  • wikiPinned memory

    …Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…

  • wikiCUDA event

    …Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…

  • wikiunified memory

    …NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…

  • answerNVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет LLM serving?

    …NVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет LLM serving? ## Краткий тезис Hopper|NVIDIA Hopper|Grace Hopper (GH200…

  • wikiCUTLASS

    …Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…

  • wikicompute-communication overlap

    …Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…

  • wikiWGMMA instructions

    # WGMMA instructions ## Определение Инструкции Hopper GPU, используемые для asynchronous execution в FlashAttention-3. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация…

  • wikiPCIe

    …NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…

  • wikiHBM

    …Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…

  • wikiNVLink Switch System

    …NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…

  • wikiFlashAttention-3

    # FlashAttention-3 ## Определение Версия FlashAttention для GPU Hopper, использующая WGMMA, TMA, FP8 и partitioning 128×128 для ускорения в 2…

  • wikiCUDA streams

    …Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…

  • wikiNVLink 5.0

    # NVLink 5.0 ## Определение Пятое поколение NVLink (архитектура Hopper/H100) с увеличенной пропускной способностью по сравнению с предыдущим поколением. ## Где…

  • wikiSwap

    …NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…

  • wikiOffloading

    …NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…

  • answerКак работает asynchronous execution на Hopper (copy engine vs compute)?

    …Как работает asynchronous execution на Hopper (copy engine vs compute)? ## Краткий тезис Архитектура [[Вики/Hopper GPU\|NVIDIA Hopper]] ([[Вики/Hopper

  • answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?

    …Оптимизация под архитектуру Hopper (H100/H800). Рассмотрим каждое подробнее. --- ## 4. Асинхронное выполнение на Hopper (WGMMA) [[Вики/WGMMA\|WGMMA]] (Warp Group…

  • wikiTMA

    # TMA ## Определение Аппаратный ускоритель на GPU Hopper для асинхронного копирования данных между глобальной и разделяемой памятью, снижающий задержки при выполнении…

  • wikinsys

    …Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…

  • answerЧто такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3?

    …Архитектура H100 и место TMA [[Вики/Hopper GPU\|NVIDIA H100]] ([[Вики/H100\|Hopper]]) содержит 132 SM, каждый SM имеет: - 4…

  • wikiinference

    …NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…

  • wikiL1 cache

    …Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…

  • answerКак работает FlashAttention-3 технически? Чем отличается от FA2?

    …архитектура Hopper (H100) Architecture [[Вики/H100\|Hopper]] — это поколение [[Вики/GPU\|GPU]] от NVIDIA (2023+), которое принесло ключевые нововведения: | Особенность…

  • wikiLong Context

    …NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…

  • answerКак работает FlashAttention-3 математически?

    …Ключевые аппаратные возможности Hopper, используемые FA3 | Компонент | Назначение | Характеристики | |-----------|------------|----------------| | [[Вики/WGMMA\|WGMMA]] (Warp Group MMA) | Выполнение матричного умножения-накопления размером…

  • answerКак работают Tensor Cores в H100/B200 и для чего они нужны?

    …В [[Вики/Hopper GPU\|H100]] ([[Вики/Hopper GPU\|архитектура Hopper]], 4-е поколение) и [[Вики/B200\|B200]] ([[Вики/Blackwell architecture…

  • answerЧто такое MIG (Multi-Instance GPU) и как настроить для разных LLM?

    …Как работает asynchronous execution на Hopper (copy engine vs compute)\|707]] - Следующий: [[709. NVIDIA Grace Hopper CPU-GPU unified memory…

  • answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?

    …Архитектура NVIDIA H100 (Hopper) [[Вики/Hopper GPU\|H100]] построен на архитектуре [[Вики/H100\|Hopper]] и является монолитным кристаллом (один чип…

  • wikiforward pass

    …Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…

  • wikiTensor Cores

    …Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…

  • wikiPipeline parallelism

    …NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…

  • answerКак работает FP8 quantization на H100 (Transformer Engine)?

    …H100 и Tensor Cores [[Вики/Hopper GPU\|H100]] ([[Вики/H100\|Hopper]]) от NVIDIA содержит четвёртое поколение [[Вики/Tensor Cores\|Tensor…

  • answerКак работает NVLink Switch System на DGX H100?

    …В [[Вики/DGX\|DGX]] [[Вики/Hopper GPU\|H100]] используются четыре таких коммутатора. [[Вики/DGX H100\|DGX H100]] — это интегрированный сервер…