cuBLAS
cuBLAS
Определение
cuBLAS — оптимизированная библиотека NVIDIA для BLAS-операций на GPU, использующая Tensor Cores для ускорения матричных вычислений в инференсе LLM.
Где встречается
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
- 303. Как работают Tensor Cores в H100B200 и для чего они нужны
- 324. Что такое TVM (Apache TVM) и зачем он нужен для AI инференса
- 705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100
- 712. Что такое Cooperative Groups в CUDA и как использовать для attention