Поиск
- wikiGrace Hopper
# Grace Hopper ## Определение Суперчип NVIDIA, объединяющий CPU Grace и GPU Hopper с unified memory через NVLink-C2C, упрощающий LLM serving…
- wikiHopper GPU
# Hopper GPU ## Определение Микроархитектура GPU, поддерживающая WGMMA и TMA для ускорения FlashAttention-3; используется для высокопроизводительного инференса LLM. ## Где встречается…
- wikiCuTe
# CuTe ## Определение Библиотека описания тензорных операций, интегрируемая с TMA (Tensor Memory Accelerator) на GPU Hopper. ## Где встречается - [[707. Как работает…
- wikiLPDDR5X
# LPDDR5X ## Определение Тип оперативной памяти CPU в архитектуре NVIDIA Grace Hopper, используемый для быстрого хранения KV cache при инференсе LLM…
- wikiCopy Engine
# Copy Engine ## Определение Аппаратные блоки в архитектуре Hopper (H100), предназначенные для асинхронного копирования данных между хостом и устройством, отдельно от…
- wikiNVLink-C2C
# NVLink-C2C ## Определение Высокоскоростной интерконнект (900 ГБ/с) между CPU Grace и GPU H100 в архитектуре Grace Hopper, обеспечивающий unified…
- wikicp.async.bulk
# cp.async.bulk ## Определение PTX-инструкция для асинхронного копирования данных через Tensor Memory Accelerator на GPU Hopper, применяемая в оптимизированных…
- wikiH100
# H100 ## Определение Графический процессор NVIDIA архитектуры Hopper с поддержкой FP8 через Transformer Engine и MIG, ключевой для инференса LLM. ## Где…
- wikiPTX
# PTX ## Определение Низкоуровневый ассемблер NVIDIA для GPU, используемый для программирования Tensor Cores и TMA (Tensor Memory Accelerator) на архитектуре Hopper…
- wikiKernel launch
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
- wikiARM Neoverse V2
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
- wikiCompute engine
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
- wikiAsynchronous Execution
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
- wikiGPU memory management
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
- wikitranspose
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
- wikiswizzle
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
- wikiPCIe Gen5
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
- wikiPinned memory
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
- wikiCUDA event
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
- wikiunified memory
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
- answerNVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет LLM serving?
…NVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет LLM serving? ## Краткий тезис Hopper|NVIDIA Hopper|Grace Hopper (GH200…
- wikiCUTLASS
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
- wikicompute-communication overlap
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
- wikiWGMMA instructions
# WGMMA instructions ## Определение Инструкции Hopper GPU, используемые для asynchronous execution в FlashAttention-3. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация…
- wikiPCIe
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
- wikiHBM
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
- wikiNVLink Switch System
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
- wikiFlashAttention-3
# FlashAttention-3 ## Определение Версия FlashAttention для GPU Hopper, использующая WGMMA, TMA, FP8 и partitioning 128×128 для ускорения в 2…
- wikiCUDA streams
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
- wikiNVLink 5.0
# NVLink 5.0 ## Определение Пятое поколение NVLink (архитектура Hopper/H100) с увеличенной пропускной способностью по сравнению с предыдущим поколением. ## Где…
- wikiSwap
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
- wikiOffloading
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
- answerКак работает asynchronous execution на Hopper (copy engine vs compute)?
…Как работает asynchronous execution на Hopper (copy engine vs compute)? ## Краткий тезис Архитектура [[Вики/Hopper GPU\|NVIDIA Hopper]] ([[Вики/Hopper…
- answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
…Оптимизация под архитектуру Hopper (H100/H800). Рассмотрим каждое подробнее. --- ## 4. Асинхронное выполнение на Hopper (WGMMA) [[Вики/WGMMA\|WGMMA]] (Warp Group…
- wikiTMA
# TMA ## Определение Аппаратный ускоритель на GPU Hopper для асинхронного копирования данных между глобальной и разделяемой памятью, снижающий задержки при выполнении…
- wikinsys
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
- answerЧто такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3?
…Архитектура H100 и место TMA [[Вики/Hopper GPU\|NVIDIA H100]] ([[Вики/H100\|Hopper]]) содержит 132 SM, каждый SM имеет: - 4…
- wikiinference
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
- wikiL1 cache
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
- answerКак работает FlashAttention-3 технически? Чем отличается от FA2?
…архитектура Hopper (H100) Architecture [[Вики/H100\|Hopper]] — это поколение [[Вики/GPU\|GPU]] от NVIDIA (2023+), которое принесло ключевые нововведения: | Особенность…
- wikiLong Context
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
- answerКак работает FlashAttention-3 математически?
…Ключевые аппаратные возможности Hopper, используемые FA3 | Компонент | Назначение | Характеристики | |-----------|------------|----------------| | [[Вики/WGMMA\|WGMMA]] (Warp Group MMA) | Выполнение матричного умножения-накопления размером…
- answerКак работают Tensor Cores в H100/B200 и для чего они нужны?
…В [[Вики/Hopper GPU\|H100]] ([[Вики/Hopper GPU\|архитектура Hopper]], 4-е поколение) и [[Вики/B200\|B200]] ([[Вики/Blackwell architecture…
- answerЧто такое MIG (Multi-Instance GPU) и как настроить для разных LLM?
…Как работает asynchronous execution на Hopper (copy engine vs compute)\|707]] - Следующий: [[709. NVIDIA Grace Hopper CPU-GPU unified memory…
- answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Архитектура NVIDIA H100 (Hopper) [[Вики/Hopper GPU\|H100]] построен на архитектуре [[Вики/H100\|Hopper]] и является монолитным кристаллом (один чип…
- wikiforward pass
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
- wikiTensor Cores
…Как работает asynchronous execution на Hopper (copy engine vs compute)|707. Как работает asynchronous execution на Hopper (copy engine vs…
- wikiPipeline parallelism
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
- answerКак работает FP8 quantization на H100 (Transformer Engine)?
…H100 и Tensor Cores [[Вики/Hopper GPU\|H100]] ([[Вики/H100\|Hopper]]) от NVIDIA содержит четвёртое поколение [[Вики/Tensor Cores\|Tensor…
- answerКак работает NVLink Switch System на DGX H100?
…В [[Вики/DGX\|DGX]] [[Вики/Hopper GPU\|H100]] используются четыре таких коммутатора. [[Вики/DGX H100\|DGX H100]] — это интегрированный сервер…