Поиск

wikiGrace Hopper
# Grace Hopper ## Определение Суперчип NVIDIA, объединяющий CPU Grace и GPU Hopper с unified memory через NVLink-C2C, упрощающий LLM serving…
wikiHopper GPU
# Hopper GPU ## Определение Микроархитектура GPU, поддерживающая WGMMA и TMA для ускорения FlashAttention-3; используется для высокопроизводительного инференса LLM. ## Где встречается…
wikiCuTe
# CuTe ## Определение Библиотека описания тензорных операций, интегрируемая с TMA (Tensor Memory Accelerator) на GPU Hopper. ## Где встречается - [[707. Как работает…
wikiLPDDR5X
# LPDDR5X ## Определение Тип оперативной памяти CPU в архитектуре NVIDIA Grace Hopper, используемый для быстрого хранения KV cache при инференсе LLM…
wikiCopy Engine
# Copy Engine ## Определение Аппаратные блоки в архитектуре Hopper (H100), предназначенные для асинхронного копирования данных между хостом и устройством, отдельно от…
wikiNVLink-C2C
# NVLink-C2C ## Определение Высокоскоростной интерконнект (900 ГБ/с) между CPU Grace и GPU H100 в архитектуре Grace Hopper, обеспечивающий unified…
wikicp.async.bulk
# cp.async.bulk ## Определение PTX-инструкция для асинхронного копирования данных через Tensor Memory Accelerator на GPU Hopper, применяемая в оптимизированных…
wikiH100
# H100 ## Определение Графический процессор NVIDIA архитектуры Hopper с поддержкой FP8 через Transformer Engine и MIG, ключевой для инференса LLM. ## Где…
wikiPTX
# PTX ## Определение Низкоуровневый ассемблер NVIDIA для GPU, используемый для программирования Tensor Cores и TMA (Tensor Memory Accelerator) на архитектуре Hopper…
wikiKernel launch
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
wikiARM Neoverse V2
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
wikiCompute engine
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
wikiAsynchronous Execution
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
wikiGPU memory management
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
wikitranspose
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
wikiswizzle
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
wikiPCIe Gen5
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
wikiPinned memory
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
wikiCUDA event
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
wikiunified memory
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
answerNVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет LLM serving?
…NVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет LLM serving? ## Краткий тезис Hopper|NVIDIA Hopper|Grace Hopper (GH200…
wikiCUTLASS
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
wikicompute-communication overlap
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
wikiWGMMA instructions
# WGMMA instructions ## Определение Инструкции Hopper GPU, используемые для asynchronous execution в FlashAttention-3. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация…
wikiPCIe
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
wikiHBM
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
wikiNVLink Switch System
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
wikiFlashAttention-3
# FlashAttention-3 ## Определение Версия FlashAttention для GPU Hopper, использующая WGMMA, TMA, FP8 и partitioning 128×128 для ускорения в 2…
wikiCUDA streams
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
wikiNVLink 5.0
# NVLink 5.0 ## Определение Пятое поколение NVLink (архитектура Hopper/H100) с увеличенной пропускной способностью по сравнению с предыдущим поколением. ## Где…
wikiSwap
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
wikiOffloading
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
answerКак работает asynchronous execution на Hopper (copy engine vs compute)?
…Как работает asynchronous execution на Hopper (copy engine vs compute)? ## Краткий тезис Архитектура [[Вики/Hopper GPU\|NVIDIA Hopper]] ([[Вики/Hopper…
answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
…Оптимизация под архитектуру Hopper (H100/H800). Рассмотрим каждое подробнее. --- ## 4. Асинхронное выполнение на Hopper (WGMMA) [[Вики/WGMMA\|WGMMA]] (Warp Group…
wikiTMA
# TMA ## Определение Аппаратный ускоритель на GPU Hopper для асинхронного копирования данных между глобальной и разделяемой памятью, снижающий задержки при выполнении…
wikinsys
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
answerЧто такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3?
…Архитектура H100 и место TMA [[Вики/Hopper GPU\|NVIDIA H100]] ([[Вики/H100\|Hopper]]) содержит 132 SM, каждый SM имеет: - 4…
wikiinference
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
wikiL1 cache
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
answerКак работает FlashAttention-3 технически? Чем отличается от FA2?
…архитектура Hopper (H100) Architecture [[Вики/H100\|Hopper]] — это поколение [[Вики/GPU\|GPU]] от NVIDIA (2023+), которое принесло ключевые нововведения: | Особенность…
wikiLong Context
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
answerКак работает FlashAttention-3 математически?
…Ключевые аппаратные возможности Hopper, используемые FA3 | Компонент | Назначение | Характеристики | |-----------|------------|----------------| | [[Вики/WGMMA\|WGMMA]] (Warp Group MMA) | Выполнение матричного умножения-накопления размером…
answerКак работают Tensor Cores в H100/B200 и для чего они нужны?
…В [[Вики/Hopper GPU\|H100]] ([[Вики/Hopper GPU\|архитектура Hopper]], 4-е поколение) и [[Вики/B200\|B200]] ([[Вики/Blackwell architecture…
answerЧто такое MIG (Multi-Instance GPU) и как настроить для разных LLM?
…Как работает asynchronous execution на Hopper (copy engine vs compute)\|707]] - Следующий: [[709. NVIDIA Grace Hopper CPU-GPU unified memory…
answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Архитектура NVIDIA H100 (Hopper) [[Вики/Hopper GPU\|H100]] построен на архитектуре [[Вики/H100\|Hopper]] и является монолитным кристаллом (один чип…
wikiforward pass
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
wikiTensor Cores
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
wikiPipeline parallelism
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
answerКак работает FP8 quantization на H100 (Transformer Engine)?
…H100 и Tensor Cores [[Вики/Hopper GPU\|H100]] ([[Вики/H100\|Hopper]]) от NVIDIA содержит четвёртое поколение [[Вики/Tensor Cores\|Tensor…
answerКак работает NVLink Switch System на DGX H100?
…В [[Вики/DGX\|DGX]] [[Вики/Hopper GPU\|H100]] используются четыре таких коммутатора. [[Вики/DGX H100\|DGX H100]] — это интегрированный сервер…