中文翻译暂不可用,显示俄语原文。
CUDA API calls latency
CUDA API calls latency
Определение
Задержка, возникающая при вызове функций CUDA API, например cudaLaunchKernel, которая может составлять десятки микросекунд. Эта задержка является одним из источников накладных расходов при инференсе LLM.