English translation is not available yet. Showing Russian content.
GEMM (General Matrix Multiply) в LLM
GEMM (General Matrix Multiply) в LLM
Определение
Основные операции в LLM (Attention QK^T, PV, FFN) являются GEMM и выполняются через Tensor Cores. Это ключевой аспект оптимизации инференса.