CUDA API calls latency
CUDA API calls latency
Определение
Задержка, возникающая при вызове функций CUDA API, например cudaLaunchKernel, которая может составлять десятки микросекунд. Эта задержка является одним из источников накладных расходов при инференсе LLM.