中文翻译暂不可用,显示俄语原文。

CUDA API calls latency

CUDA API calls latency

Определение

Задержка, возникающая при вызове функций CUDA API, например cudaLaunchKernel, которая может составлять десятки микросекунд. Эта задержка является одним из источников накладных расходов при инференсе LLM.

Где встречается

Навигация