batch matrix multiplication

batch matrix multiplication

Определение

Эффективная операция на GPU, выполняющая умножение матриц для множества запросов одновременно, что ускоряет prefill при инференсе LLM.

Где встречается

Навигация