Поиск

answerКак работают Tensor Cores в H100/B200 и для чего они нужны?
…Как работают Tensor Cores в H100/B200 и для чего они нужны? ## Краткий тезис [[Вики/Tensor Cores\|Tensor Cores]] — это…
wikiCUDA cores
# CUDA cores ## Определение Универсальные вычислительные блоки GPU, выполняющие скалярные операции. В отличие от Tensor Cores, которые специализируются на матричных операциях…
wikiBlackwell architecture
# Blackwell architecture ## Определение Архитектура GPU NVIDIA B200 с пятым поколением Tensor Cores и TMA (Tensor Memory Accelerator) для ускорения операций…
wikiim2col
…Позволяет эффективно использовать Tensor Cores на GPU. ## Где встречается - [[303. Как работают Tensor Cores в H100B200 и для чего они…
wikiPTX
# PTX ## Определение Низкоуровневый ассемблер NVIDIA для GPU, используемый для программирования Tensor Cores и TMA (Tensor Memory Accelerator) на архитектуре Hopper…
wikicuDNN
# cuDNN ## Определение Библиотека NVIDIA для глубоких нейронных сетей, оптимизированная для Tensor Cores. Используется для ускорения свёрточных и рекуррентных операций на…
wikiTensor Cores
# Tensor Cores ## Определение Специализированные аппаратные блоки в GPU NVIDIA (H100/B200) для ускорения матричного умножения (GEMM) в форматах FP16/FP8…
wiki4th gen
# 4th gen ## Определение Четвёртое поколение Tensor Cores в GPU H100, поддерживающее форматы FP8 и обеспечивающее повышенную производительность для обучения и…
wikicuBLAS
# cuBLAS ## Определение cuBLAS — оптимизированная библиотека NVIDIA для BLAS-операций на GPU, использующая Tensor Cores для ускорения матричных вычислений в инференсе…
answerКак работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100?
…Что такое Tensor Cores и зачем они нужны? [[Вики/Tensor Cores\|Tensor Cores]] — это аппаратные блоки, впервые представленные в архитектуре…
answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…132 SM, каждый содержит 128 ядер [[Вики/CUDA\|CUDA]] и 4 [[Вики/Tensor Cores\|Tensor Core]] четвёртого поколения. - [[Вики/Tensor…
wikiGEMM
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
wiki2:4 sparsity
# 2:4 sparsity ## Определение Разреженность, где каждый второй элемент — ноль, удваивает производительность Tensor Cores при поддержке sparse. ## Где встречается - [[705…
wikiTransformer Engine
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
wikiFP8
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
wikiGEMM (General Matrix Multiply) в LLM
…и выполняются через Tensor Cores. Это ключевой аспект оптимизации инференса. ## Где встречается - [[705. Как работает Tensor Core microarchitecture (WGMMA, MMA…
wikiMMA
# MMA ## Определение Инструкция на Tensor Cores для выполнения умножения малых матриц с накоплением, используемая в высокопроизводительных вычислениях. ## Где встречается - [[800…
wikiINT8
# INT8 ## Определение 8-битный целочисленный формат, поддерживаемый Tensor Cores, используемый для квантования моделей с целью уменьшения размера и ускорения инференса…
wikiH100
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
wikiwarp-level parallelism
# warp-level parallelism ## Определение Метод параллелизма на уровне варпов, используемый в инструкциях WGMMA для эффективного использования Tensor Cores. ## Где встречается…
answerПочему 4-bit inference иногда медленнее 8-bit?
…Аппаратные особенности (Tensor Cores, CUDA cores) Современные GPU (NVIDIA A100, H100, RTX 4090) имеют специализированные [[Вики/Tensor Cores\|Tensor Cores…
answerЧто такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3?
…Пока идёт [[Вики/indexing\|загрузка]], [[Вики/Tensor Cores\|тензорные ядра]] простаивают (или используются для других блоков, но это снижает [[Вики…
answerКак работает warp scheduling на NVIDIA GPU и как это влияет на LLM kernels?
…Tensor Cores требуют uniform data layout; divergence может вынудить использовать CUDA cores вместо Tensor Cores. --- ## 4. FlashAttention и минимизация divergence…
wikiCUTLASS
# CUTLASS ## Определение Библиотека с открытым исходным кодом для высокопроизводительных матричных операций (GEMM) на GPU с использованием Tensor Cores и ручным…
wikiQK^T
…На аппаратном уровне может быть ускорена с помощью Tensor Cores (например, в H100). ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация…
wikiCompute engine
# Compute engine ## Определение Блок GPU (например, в H100), исполняющий CUDA-ядра и Tensor Cores; работает параллельно с copy engine для…
wikiNVLink
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
wikiCUDA Execution Provider
# CUDA Execution Provider ## Определение Бэкенд для ONNX Runtime, обеспечивающий выполнение моделей на NVIDIA GPU с использованием cuBLAS и Tensor Cores…
wikicompute utilization
# compute utilization ## Определение Процент использования вычислительных блоков GPU (FP32/FP16/Tensor Cores); низкое значение указывает на простой и используется при…
answerКак работает FP8 quantization на H100 (Transformer Engine)?
…H100 и Tensor Cores [[Вики/Hopper GPU\|H100]] ([[Вики/H100\|Hopper]]) от NVIDIA содержит четвёртое поколение [[Вики/Tensor Cores\|Tensor…
answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…Характеристики - Скорость В 2 раза быстрее FP16 на H100 благодаря вдвое меньшему объёму данных и оптимизированным Tensor Cores. - Качество При…
wikiTensorRT-LLM
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?
…использует [[Вики/Tensor Cores\|тензорные ядра]] ([[Вики/Tensor Cores\|Tensor Cores]]) для INT8/FP16, [[Вики/auto-merging retrieval\|автоматическое слияние…
wikimixed precision training
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
answerКак работает asynchronous execution на Hopper (copy engine vs compute)?
…В [[Вики/Hopper GPU\|H100]] это набор SM ([[Вики/SM\|Streaming Multiprocessors]]) с поддержкой [[Вики/Tensor Cores\|Tensor Cores]]. **[[Вики…
answerКак работает Mixed Precision Training (FP16 + FP32 master веса)?
…MPT позволяет эффективно использовать Tensor Cores и снижать время обучения с недель до дней. --- ## Пет-проект для закрепления [[Вики/Task…
answerКак устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс?
…Как работают Tensor Cores в H100B200 и для чего они нужны\|303]] | Какие методы квантизации (GPTQ, AWQ, bitsandbytes) вы знаете…
wikiQuantization
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
…инструкции [[Вики/WGMMA\|WGMMA]], [[Вики/asynchronous data copy\|асинхронное копирование]], [[Вики/Tensor Cores\|тензорные ядра]] четвёртого поколения. - Нет поддержки FP8…
answerЧто такое FP8 инференс на H100 (Transformer Engine)?
…Loss\|потери]] значимости. - Работает с тензорными ядрами ([[Вики/Tensor Cores\|Tensor Cores]]) четвёртого поколения, которые поддерживают [[Вики/FP8\|FP8]] умножение…
answerПочему BF16 лучше FP16 для training?
…Аппаратная поддержка и производительность | Архитектура | Поддержка BF16 | Поддержка FP16 | Примечание | |-------------|----------------|----------------|------------| | NVIDIA V100 | нет (эмуляция) | да | FP16 через tensor cores | | NVIDIA…
answerКак вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)?
…HBM]]. - **Compute utilization** — процент использования вычислительных блоков (FP32/FP16/Tensor Cores). **Таблица: Warp stall reasons (основные)** | Причина | Описание | Типичная проблема…
answerКак работает L1/L2 cache hierarchy в A100/H100 и как ее использовать для LLM?
…Добавить использование Tensor Cores через `wmma` (опционально). Ожидаемый результат Ускорение в 2-5 раз для длинных последовательностей, понимание влияния размера…
answerКак работает speculative execution на GPU для LLM (branch prediction)?
…Связь с другими аспектами GPU - [[Вики/Tensor Cores\|Tensor Cores]] — специализированные блоки для матричных умножений. Они не поддерживают ветвления, поэтому…
answerКак работает tensor parallelism с FP8 в vLLM?
…Причины ускорения - [[Вики/FP8\|FP8]] требует меньше памяти, что снижает [[Вики/Bottleneck\|bottleneck]] памяти. - [[Вики/Tensor Cores\|Тензорные ядра]] [[Вики…
answerЧто такое TVM (Apache TVM) и зачем он нужен для AI инференса?
…Примечание | |--------|------------|------------| | [[Вики/CUDA\|CUDA]] | NVIDIA GPU | Использует cuBLAS, cuDNN, Tensor Cores | | [[Вики/OpenCL\|OpenCL]] | AMD GPU, Intel GPU, FPGA | Кроссплатформенный…
answerЧто такое bank conflicts в shared memory и как их избежать?
…Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100\|705]] | Использование tensor cores | | [[706. Что такое TMA (Tensor Memory…
answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
…специализированные [[Вики/kernels\|ядра]] ([[Вики/Quantization\|INT4]] [[Вики/Tensor Cores\|tensor cores]] на NVIDIA). - Запуск на [[Вики/CPU\|CPU]] / [[Вики…
answerЧто такое ONNX Runtime и когда он выгоден для LLM?
…Использует cuBLAS, Tensor Cores. Поддерживает FP16, INT8 | | [[Вики/TensorRT-LLM\|TensorRT]] | NVIDIA GPU | Дополнительная оптимизация через TensorRT (слияние слоёв, kernel…
answerПочему decode stage плохо batchится?
…производительность]] ограничена вычислительными возможностями ([[Вики/Tensor Cores\|тензорные ядра]], [[Вики/CUDA cores\|CUDA cores]]). [[Вики/GPU\|GPU]] полностью утилизирована в…