中文翻译暂不可用,显示俄语原文。
batch matrix multiplication
batch matrix multiplication
Определение
Эффективная операция на GPU, выполняющая умножение матриц для множества запросов одновременно, что ускоряет prefill при инференсе LLM.
中文翻译暂不可用,显示俄语原文。
Эффективная операция на GPU, выполняющая умножение матриц для множества запросов одновременно, что ускоряет prefill при инференсе LLM.