Поиск

wikiH100
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
wikiDGX H100
# DGX H100 ## Определение Современная платформа NVIDIA с 8 GPU H100 и NVLink Switch System, обеспечивающей 18 NVLink-линков на GPU…
wikiTransformer Engine
# Transformer Engine ## Определение Аппаратный модуль и программная библиотека NVIDIA для автоматического управления FP8 quantization и масштабированием на H100/B200. ## Где…
wikiFP8
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
wikiFP8 quantization
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[642. Как вы…
wikidelayed scaling
# delayed scaling ## Определение Метод калибровки масштабов в Transformer Engine для FP8 quantization на H100, при котором scaling factor применяется с…
wikiTensor Cores
# Tensor Cores ## Определение Специализированные аппаратные блоки в GPU NVIDIA (H100/B200) для ускорения матричного умножения (GEMM) в форматах FP16/FP8…
wikiCUDA cores
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
wikioutliers
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[458. Что такое…
wikiGEMM
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
answerКак работает NVLink Switch System на DGX H100?
…Архитектура DGX H100: 8 GPU, 4 NVSwitch Внутри [[Вики/DGX H100\|DGX H100]]: - 8 [[Вики/GPU\|GPU]] [[Вики/H100\|H100…
wikiper-channel scaling
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[642. Как вы…
wikiBlackwell architecture
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
wikiquantlib
# quantlib ## Определение Библиотека для эмуляции FP8-инференса на оборудовании, не поддерживающем аппаратный FP8 (например, на GPU без H100). Позволяет тестировать…
wikiWarp schedulers
# Warp schedulers ## Определение Компоненты SM, управляющие выполнением warps; в H100 имеется 4 warp schedulers на SM. ## Где встречается - [[705. Как…
wikicuDNN
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
wikiFP8 Tensor Core
# FP8 Tensor Core ## Определение Специализированные вычислительные блоки на GPU H100, предназначенные для выполнения операций умножения матриц с FP8 точностью, что…
answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Архитектура NVIDIA H100 (Hopper) [[Вики/Hopper GPU\|H100]] построен на архитектуре [[Вики/H100\|Hopper]] и является монолитным кристаллом (один чип…
wikiPTX
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
wikioutlier-aware scaling
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
wikiNVSwitch 4
# NVSwitch 4 ## Определение Коммутатор четвёртого поколения с 64 портами NVLink 4.0, используемый в DGX H100 для построения fully-connected…
wikicopy with padding
# copy with padding ## Определение Возможность Tensor Memory Accelerator (TMA) в H100 копировать данные с автоматическим выравниванием, упрощая работу с нерегулярными…
wikiWarp group
# Warp group ## Определение Новая концепция в H100, объединение нескольких warps (обычно 4 warps = 128 потоков) для инструкции WGMMA. ## Где встречается…
wikiLD/ST
…В современных архитектурах, таких как H100, заменяются асинхронным копированием через TMA для повышения производительности. ## Где встречается - [[706. Что такое TMA…
wikiCUTLASS
…Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100]] - [[706. Что такое TMA (Tensor Memory Accelerator) в H100 и…
wikiswizzle
# swizzle ## Определение Операция перестановки данных, поддерживаемая TMA (Tensor Memory Accelerator) в H100, для улучшения кэш-локальности и оптимизации доступа к…
wikiNVLink
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
wikicuBLAS
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
wikiMegatron-LM
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[423. Как работает…
wikite.Linear
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiHBM
…Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD MI300X vs H100…
wikihidden_size
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiMARGIN-режим
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiHugging Face Evaluate
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiICI
…Как работает NVLink Switch System на DGX H100|314. Как работает NVLink Switch System на DGX H100]] ## Навигация - [[00. Индекс…
wikite.LayerNorm
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiE5M2
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
wikiE4M3
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
wikiCDNA3
…Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD MI300X vs H100…
wikim16n8k16
…Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100|705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в…
wikim64n16k16
…Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100|705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в…
wikim64n64k16
…Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100|705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в…
wikim8n8k32
…Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100|705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в…
wikincu
…Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100]] - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в…
answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
…Оптимизация под архитектуру Hopper (H100/H800). Рассмотрим каждое подробнее. --- ## 4. Асинхронное выполнение на Hopper (WGMMA) [[Вики/WGMMA\|WGMMA]] (Warp Group…
wikicontext parallelism
…Что такое memory-efficient attention для long context на 8x H100|650. Что такое memory-efficient attention для long context…
wikiAttention: PV
…Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100|705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в…
wikidynamic scaling
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
wikiInfinity Fabric
…Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD MI300X vs H100…
wikismooth quantization
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…