Поиск

  • answerКак работают Tensor Cores в H100/B200 и для чего они нужны?

    …Как работают Tensor Cores в H100/B200 и для чего они нужны? ## Краткий тезис [[Вики/Tensor Cores\|Tensor Cores]] — это…

  • wikiCUDA cores

    # CUDA cores ## Определение Универсальные вычислительные блоки GPU, выполняющие скалярные операции. В отличие от Tensor Cores, которые специализируются на матричных операциях…

  • wikiBlackwell architecture

    # Blackwell architecture ## Определение Архитектура GPU NVIDIA B200 с пятым поколением Tensor Cores и TMA (Tensor Memory Accelerator) для ускорения операций…

  • wikiim2col

    …Позволяет эффективно использовать Tensor Cores на GPU. ## Где встречается - [[303. Как работают Tensor Cores в H100B200 и для чего они…

  • wikiPTX

    # PTX ## Определение Низкоуровневый ассемблер NVIDIA для GPU, используемый для программирования Tensor Cores и TMA (Tensor Memory Accelerator) на архитектуре Hopper…

  • wikicuDNN

    # cuDNN ## Определение Библиотека NVIDIA для глубоких нейронных сетей, оптимизированная для Tensor Cores. Используется для ускорения свёрточных и рекуррентных операций на…

  • wikiTensor Cores

    # Tensor Cores ## Определение Специализированные аппаратные блоки в GPU NVIDIA (H100/B200) для ускорения матричного умножения (GEMM) в форматах FP16/FP8…

  • wiki4th gen

    # 4th gen ## Определение Четвёртое поколение Tensor Cores в GPU H100, поддерживающее форматы FP8 и обеспечивающее повышенную производительность для обучения и…

  • wikicuBLAS

    # cuBLAS ## Определение cuBLAS — оптимизированная библиотека NVIDIA для BLAS-операций на GPU, использующая Tensor Cores для ускорения матричных вычислений в инференсе…

  • answerКак работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100?

    …Что такое Tensor Cores и зачем они нужны? [[Вики/Tensor Cores\|Tensor Cores]] — это аппаратные блоки, впервые представленные в архитектуре…

  • answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?

    …132 SM, каждый содержит 128 ядер [[Вики/CUDA\|CUDA]] и 4 [[Вики/Tensor Cores\|Tensor Core]] четвёртого поколения. - [[Вики/Tensor

  • wikiGEMM

    …Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…

  • wiki2:4 sparsity

    # 2:4 sparsity ## Определение Разреженность, где каждый второй элемент — ноль, удваивает производительность Tensor Cores при поддержке sparse. ## Где встречается - [[705…

  • wikiTransformer Engine

    …Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…

  • wikiFP8

    …Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…

  • wikiGEMM (General Matrix Multiply) в LLM

    …и выполняются через Tensor Cores. Это ключевой аспект оптимизации инференса. ## Где встречается - [[705. Как работает Tensor Core microarchitecture (WGMMA, MMA…

  • wikiMMA

    # MMA ## Определение Инструкция на Tensor Cores для выполнения умножения малых матриц с накоплением, используемая в высокопроизводительных вычислениях. ## Где встречается - [[800…

  • wikiINT8

    # INT8 ## Определение 8-битный целочисленный формат, поддерживаемый Tensor Cores, используемый для квантования моделей с целью уменьшения размера и ускорения инференса…

  • wikiH100

    …Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…

  • wikiwarp-level parallelism

    # warp-level parallelism ## Определение Метод параллелизма на уровне варпов, используемый в инструкциях WGMMA для эффективного использования Tensor Cores. ## Где встречается…

  • answerПочему 4-bit inference иногда медленнее 8-bit?

    …Аппаратные особенности (Tensor Cores, CUDA cores) Современные GPU (NVIDIA A100, H100, RTX 4090) имеют специализированные [[Вики/Tensor Cores\|Tensor Cores

  • answerЧто такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3?

    …Пока идёт [[Вики/indexing\|загрузка]], [[Вики/Tensor Cores\|тензорные ядра]] простаивают (или используются для других блоков, но это снижает [[Вики…

  • answerКак работает warp scheduling на NVIDIA GPU и как это влияет на LLM kernels?

    Tensor Cores требуют uniform data layout; divergence может вынудить использовать CUDA cores вместо Tensor Cores. --- ## 4. FlashAttention и минимизация divergence…

  • wikiCUTLASS

    # CUTLASS ## Определение Библиотека с открытым исходным кодом для высокопроизводительных матричных операций (GEMM) на GPU с использованием Tensor Cores и ручным…

  • wikiQK^T

    …На аппаратном уровне может быть ускорена с помощью Tensor Cores (например, в H100). ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация…

  • wikiCompute engine

    # Compute engine ## Определение Блок GPU (например, в H100), исполняющий CUDA-ядра и Tensor Cores; работает параллельно с copy engine для…

  • wikiNVLink

    …Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…

  • wikiCUDA Execution Provider

    # CUDA Execution Provider ## Определение Бэкенд для ONNX Runtime, обеспечивающий выполнение моделей на NVIDIA GPU с использованием cuBLAS и Tensor Cores

  • wikicompute utilization

    # compute utilization ## Определение Процент использования вычислительных блоков GPU (FP32/FP16/Tensor Cores); низкое значение указывает на простой и используется при…

  • answerКак работает FP8 quantization на H100 (Transformer Engine)?

    …H100 и Tensor Cores [[Вики/Hopper GPU\|H100]] ([[Вики/H100\|Hopper]]) от NVIDIA содержит четвёртое поколение [[Вики/Tensor Cores\|Tensor

  • answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?

    …Характеристики - Скорость В 2 раза быстрее FP16 на H100 благодаря вдвое меньшему объёму данных и оптимизированным Tensor Cores. - Качество При…

  • wikiTensorRT-LLM

    …Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…

  • answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?

    …использует [[Вики/Tensor Cores\|тензорные ядра]] ([[Вики/Tensor Cores\|Tensor Cores]]) для INT8/FP16, [[Вики/auto-merging retrieval\|автоматическое слияние…

  • wikimixed precision training

    …Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…

  • answerКак работает asynchronous execution на Hopper (copy engine vs compute)?

    …В [[Вики/Hopper GPU\|H100]] это набор SM ([[Вики/SM\|Streaming Multiprocessors]]) с поддержкой [[Вики/Tensor Cores\|Tensor Cores]]. **[[Вики…

  • answerКак работает Mixed Precision Training (FP16 + FP32 master веса)?

    …MPT позволяет эффективно использовать Tensor Cores и снижать время обучения с недель до дней. --- ## Пет-проект для закрепления [[Вики/Task…

  • answerКак устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс?

    …Как работают Tensor Cores в H100B200 и для чего они нужны\|303]] | Какие методы квантизации (GPTQ, AWQ, bitsandbytes) вы знаете…

  • wikiQuantization

    …Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…

  • answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?

    …инструкции [[Вики/WGMMA\|WGMMA]], [[Вики/asynchronous data copy\|асинхронное копирование]], [[Вики/Tensor Cores\|тензорные ядра]] четвёртого поколения. - Нет поддержки FP8…

  • answerЧто такое FP8 инференс на H100 (Transformer Engine)?

    …Loss\|потери]] значимости. - Работает с тензорными ядрами ([[Вики/Tensor Cores\|Tensor Cores]]) четвёртого поколения, которые поддерживают [[Вики/FP8\|FP8]] умножение…

  • answerПочему BF16 лучше FP16 для training?

    …Аппаратная поддержка и производительность | Архитектура | Поддержка BF16 | Поддержка FP16 | Примечание | |-------------|----------------|----------------|------------| | NVIDIA V100 | нет (эмуляция) | да | FP16 через tensor cores | | NVIDIA…

  • answerКак вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)?

    …HBM]]. - **Compute utilization** — процент использования вычислительных блоков (FP32/FP16/Tensor Cores). **Таблица: Warp stall reasons (основные)** | Причина | Описание | Типичная проблема…

  • answerКак работает L1/L2 cache hierarchy в A100/H100 и как ее использовать для LLM?

    …Добавить использование Tensor Cores через `wmma` (опционально). Ожидаемый результат Ускорение в 2-5 раз для длинных последовательностей, понимание влияния размера…

  • answerКак работает speculative execution на GPU для LLM (branch prediction)?

    …Связь с другими аспектами GPU - [[Вики/Tensor Cores\|Tensor Cores]] — специализированные блоки для матричных умножений. Они не поддерживают ветвления, поэтому…

  • answerКак работает tensor parallelism с FP8 в vLLM?

    …Причины ускорения - [[Вики/FP8\|FP8]] требует меньше памяти, что снижает [[Вики/Bottleneck\|bottleneck]] памяти. - [[Вики/Tensor Cores\|Тензорные ядра]] [[Вики…

  • answerЧто такое TVM (Apache TVM) и зачем он нужен для AI инференса?

    …Примечание | |--------|------------|------------| | [[Вики/CUDA\|CUDA]] | NVIDIA GPU | Использует cuBLAS, cuDNN, Tensor Cores | | [[Вики/OpenCL\|OpenCL]] | AMD GPU, Intel GPU, FPGA | Кроссплатформенный…

  • answerЧто такое bank conflicts в shared memory и как их избежать?

    …Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100\|705]] | Использование tensor cores | | [[706. Что такое TMA (Tensor Memory…

  • answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?

    …специализированные [[Вики/kernels\|ядра]] ([[Вики/Quantization\|INT4]] [[Вики/Tensor Cores\|tensor cores]] на NVIDIA). - Запуск на [[Вики/CPU\|CPU]] / [[Вики…

  • answerЧто такое ONNX Runtime и когда он выгоден для LLM?

    …Использует cuBLAS, Tensor Cores. Поддерживает FP16, INT8 | | [[Вики/TensorRT-LLM\|TensorRT]] | NVIDIA GPU | Дополнительная оптимизация через TensorRT (слияние слоёв, kernel…

  • answerПочему decode stage плохо batchится?

    …производительность]] ограничена вычислительными возможностями ([[Вики/Tensor Cores\|тензорные ядра]], [[Вики/CUDA cores\|CUDA cores]]). [[Вики/GPU\|GPU]] полностью утилизирована в…