GEMM (General Matrix Multiply) в LLM

Определение

Основные операции в LLM (Attention QK^T, PV, FFN) являются GEMM и выполняются через Tensor Cores. Это ключевой аспект оптимизации инференса.