GEMM

Определение

General Matrix Multiply — операция матричного умножения, являющаяся основной вычислительной нагрузкой в нейросетях. Ускоряется через Tensor Cores на GPU (например, H100/B200) с использованием FP8.

Где встречается

301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
303. Как работают Tensor Cores в H100B200 и для чего они нужны
305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
432. Как работает FlashAttention-3 технически Чем отличается от FA2
458. Что такое FP8 инференс на H100 (Transformer Engine)
703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
800+ вопросов

GEMM

GEMM

Определение

Где встречается

Навигация