LLM kernels
LLM kernels
Определение
Оптимизированные GPU-программы (ядра) для выполнения операций LLM, таких как умножение матриц и внимание; нацелены на минимизацию ветвлений и эффективное использование памяти.
Оптимизированные GPU-программы (ядра) для выполнения операций LLM, таких как умножение матриц и внимание; нацелены на минимизацию ветвлений и эффективное использование памяти.