CUDA API calls latency

CUDA API calls latency

Определение

Задержка, возникающая при вызове функций CUDA API, например cudaLaunchKernel, которая может составлять десятки микросекунд. Эта задержка является одним из источников накладных расходов при инференсе LLM.

Где встречается

Навигация