GEMM
GEMM
Определение
General Matrix Multiply — операция матричного умножения, являющаяся основной вычислительной нагрузкой в нейросетях. Ускоряется через Tensor Cores на GPU (например, H100/B200) с использованием FP8.
Где встречается
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
- 303. Как работают Tensor Cores в H100B200 и для чего они нужны
- 305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
- 432. Как работает FlashAttention-3 технически Чем отличается от FA2
- 458. Что такое FP8 инференс на H100 (Transformer Engine)
- 703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
- 710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
- 800+ вопросов