CUTLASS

Определение

Библиотека с открытым исходным кодом для высокопроизводительных матричных операций (GEMM) на GPU с использованием Tensor Cores и ручным управлением памятью.

Где встречается

301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100
706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
707. Как работает asynchronous execution на Hopper (copy engine vs compute)

CUTLASS

CUTLASS

Определение

Где встречается

Навигация