Поиск
- wikiH100
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
- wikiDGX H100
# DGX H100 ## Определение Современная платформа NVIDIA с 8 GPU H100 и NVLink Switch System, обеспечивающей 18 NVLink-линков на GPU…
- wikiTransformer Engine
# Transformer Engine ## Определение Аппаратный модуль и программная библиотека NVIDIA для автоматического управления FP8 quantization и масштабированием на H100/B200. ## Где…
- wikiFP8
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
- wikiFP8 quantization
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[642. Как вы…
- wikidelayed scaling
# delayed scaling ## Определение Метод калибровки масштабов в Transformer Engine для FP8 quantization на H100, при котором scaling factor применяется с…
- wikiTensor Cores
# Tensor Cores ## Определение Специализированные аппаратные блоки в GPU NVIDIA (H100/B200) для ускорения матричного умножения (GEMM) в форматах FP16/FP8…
- wikiCUDA cores
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
- wikioutliers
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[458. Что такое…
- wikiGEMM
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
- answerКак работает NVLink Switch System на DGX H100?
…Архитектура DGX H100: 8 GPU, 4 NVSwitch Внутри [[Вики/DGX H100\|DGX H100]]: - 8 [[Вики/GPU\|GPU]] [[Вики/H100\|H100…
- wikiper-channel scaling
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[642. Как вы…
- wikiBlackwell architecture
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
- wikiquantlib
# quantlib ## Определение Библиотека для эмуляции FP8-инференса на оборудовании, не поддерживающем аппаратный FP8 (например, на GPU без H100). Позволяет тестировать…
- wikiWarp schedulers
# Warp schedulers ## Определение Компоненты SM, управляющие выполнением warps; в H100 имеется 4 warp schedulers на SM. ## Где встречается - [[705. Как…
- wikicuDNN
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
- wikiFP8 Tensor Core
# FP8 Tensor Core ## Определение Специализированные вычислительные блоки на GPU H100, предназначенные для выполнения операций умножения матриц с FP8 точностью, что…
- answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Архитектура NVIDIA H100 (Hopper) [[Вики/Hopper GPU\|H100]] построен на архитектуре [[Вики/H100\|Hopper]] и является монолитным кристаллом (один чип…
- wikiPTX
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
- wikioutlier-aware scaling
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikiNVSwitch 4
# NVSwitch 4 ## Определение Коммутатор четвёртого поколения с 64 портами NVLink 4.0, используемый в DGX H100 для построения fully-connected…
- wikicopy with padding
# copy with padding ## Определение Возможность Tensor Memory Accelerator (TMA) в H100 копировать данные с автоматическим выравниванием, упрощая работу с нерегулярными…
- wikiWarp group
# Warp group ## Определение Новая концепция в H100, объединение нескольких warps (обычно 4 warps = 128 потоков) для инструкции WGMMA. ## Где встречается…
- wikiLD/ST
…В современных архитектурах, таких как H100, заменяются асинхронным копированием через TMA для повышения производительности. ## Где встречается - [[706. Что такое TMA…
- wikiCUTLASS
…Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100]] - [[706. Что такое TMA (Tensor Memory Accelerator) в H100 и…
- wikiswizzle
# swizzle ## Определение Операция перестановки данных, поддерживаемая TMA (Tensor Memory Accelerator) в H100, для улучшения кэш-локальности и оптимизации доступа к…
- wikiNVLink
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
- wikicuBLAS
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
- wikiMegatron-LM
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[423. Как работает…
- wikite.Linear
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiHBM
…Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD MI300X vs H100…
- wikihidden_size
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiMARGIN-режим
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiHugging Face Evaluate
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiICI
…Как работает NVLink Switch System на DGX H100|314. Как работает NVLink Switch System на DGX H100]] ## Навигация - [[00. Индекс…
- wikite.LayerNorm
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiE5M2
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikiE4M3
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikiCDNA3
…Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD MI300X vs H100…
- wikim16n8k16
…Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100|705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в…
- wikim64n16k16
…Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100|705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в…
- wikim64n64k16
…Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100|705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в…
- wikim8n8k32
…Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100|705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в…
- wikincu
…Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100]] - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в…
- answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
…Оптимизация под архитектуру Hopper (H100/H800). Рассмотрим каждое подробнее. --- ## 4. Асинхронное выполнение на Hopper (WGMMA) [[Вики/WGMMA\|WGMMA]] (Warp Group…
- wikicontext parallelism
…Что такое memory-efficient attention для long context на 8x H100|650. Что такое memory-efficient attention для long context…
- wikiAttention: PV
…Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100|705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в…
- wikidynamic scaling
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikiInfinity Fabric
…Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD MI300X vs H100…
- wikismooth quantization
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…