batch matrix multiplication
batch matrix multiplication
Определение
Эффективная операция на GPU, выполняющая умножение матриц для множества запросов одновременно, что ускоряет prefill при инференсе LLM.
Эффективная операция на GPU, выполняющая умножение матриц для множества запросов одновременно, что ускоряет prefill при инференсе LLM.