中文翻译暂不可用,显示俄语原文。
CUTLASS
CUTLASS
Определение
Библиотека с открытым исходным кодом для высокопроизводительных матричных операций (GEMM) на GPU с использованием Tensor Cores и ручным управлением памятью.
Где встречается
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
- 705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100
- 706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
- 707. Как работает asynchronous execution на Hopper (copy engine vs compute)