Поиск

  • wikiH100

    …Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…

  • wikiDGX H100

    # DGX H100 ## Определение Современная платформа NVIDIA с 8 GPU H100 и NVLink Switch System, обеспечивающей 18 NVLink-линков на GPU…

  • wikiTransformer Engine

    # Transformer Engine ## Определение Аппаратный модуль и программная библиотека NVIDIA для автоматического управления FP8 quantization и масштабированием на H100/B200. ## Где…

  • wikiFP8

    …Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…

  • wikiFP8 quantization

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[642. Как вы…

  • wikidelayed scaling

    # delayed scaling ## Определение Метод калибровки масштабов в Transformer Engine для FP8 quantization на H100, при котором scaling factor применяется с…

  • wikiTensor Cores

    # Tensor Cores ## Определение Специализированные аппаратные блоки в GPU NVIDIA (H100/B200) для ускорения матричного умножения (GEMM) в форматах FP16/FP8…

  • wikiCUDA cores

    …Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…

  • wikioutliers

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[458. Что такое…

  • wikiGEMM

    …Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…

  • answerКак работает NVLink Switch System на DGX H100?

    …Архитектура DGX H100: 8 GPU, 4 NVSwitch Внутри [[Вики/DGX H100\|DGX H100]]: - 8 [[Вики/GPU\|GPU]] [[Вики/H100\|H100

  • wikiper-channel scaling

    …Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[642. Как вы…

  • wikiBlackwell architecture

    …Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…

  • wikiquantlib

    # quantlib ## Определение Библиотека для эмуляции FP8-инференса на оборудовании, не поддерживающем аппаратный FP8 (например, на GPU без H100). Позволяет тестировать…

  • wikiWarp schedulers

    # Warp schedulers ## Определение Компоненты SM, управляющие выполнением warps; в H100 имеется 4 warp schedulers на SM. ## Где встречается - [[705. Как…

  • wikicuDNN

    …Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…

  • wikiFP8 Tensor Core

    # FP8 Tensor Core ## Определение Специализированные вычислительные блоки на GPU H100, предназначенные для выполнения операций умножения матриц с FP8 точностью, что…

  • answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?

    …Архитектура NVIDIA H100 (Hopper) [[Вики/Hopper GPU\|H100]] построен на архитектуре [[Вики/H100\|Hopper]] и является монолитным кристаллом (один чип…

  • wikiPTX

    …Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…

  • wikioutlier-aware scaling

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…

  • wikiNVSwitch 4

    # NVSwitch 4 ## Определение Коммутатор четвёртого поколения с 64 портами NVLink 4.0, используемый в DGX H100 для построения fully-connected…

  • wikicopy with padding

    # copy with padding ## Определение Возможность Tensor Memory Accelerator (TMA) в H100 копировать данные с автоматическим выравниванием, упрощая работу с нерегулярными…

  • wikiWarp group

    # Warp group ## Определение Новая концепция в H100, объединение нескольких warps (обычно 4 warps = 128 потоков) для инструкции WGMMA. ## Где встречается…

  • wikiLD/ST

    …В современных архитектурах, таких как H100, заменяются асинхронным копированием через TMA для повышения производительности. ## Где встречается - [[706. Что такое TMA…

  • wikiCUTLASS

    …Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100]] - [[706. Что такое TMA (Tensor Memory Accelerator) в H100 и…

  • wikiswizzle

    # swizzle ## Определение Операция перестановки данных, поддерживаемая TMA (Tensor Memory Accelerator) в H100, для улучшения кэш-локальности и оптимизации доступа к…

  • wikiNVLink

    …Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…

  • wikicuBLAS

    …Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…

  • wikiMegatron-LM

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[423. Как работает…

  • wikite.Linear

    …Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiHBM

    …Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD MI300X vs H100

  • wikihidden_size

    …Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiMARGIN-режим

    …Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiHugging Face Evaluate

    …Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiICI

    …Как работает NVLink Switch System на DGX H100|314. Как работает NVLink Switch System на DGX H100]] ## Навигация - [[00. Индекс…

  • wikite.LayerNorm

    …Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiE5M2

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…

  • wikiE4M3

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…

  • wikiCDNA3

    …Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD MI300X vs H100

  • wikim16n8k16

    …Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100|705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в…

  • wikim64n16k16

    …Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100|705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в…

  • wikim64n64k16

    …Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100|705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в…

  • wikim8n8k32

    …Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100|705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в…

  • wikincu

    …Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100]] - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в…

  • answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?

    …Оптимизация под архитектуру Hopper (H100/H800). Рассмотрим каждое подробнее. --- ## 4. Асинхронное выполнение на Hopper (WGMMA) [[Вики/WGMMA\|WGMMA]] (Warp Group…

  • wikicontext parallelism

    …Что такое memory-efficient attention для long context на 8x H100|650. Что такое memory-efficient attention для long context…

  • wikiAttention: PV

    …Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100|705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в…

  • wikidynamic scaling

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…

  • wikiInfinity Fabric

    …Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD MI300X vs H100

  • wikismooth quantization

    …Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…