CUDA API calls latency

Определение

Задержка, возникающая при вызове функций CUDA API, например cudaLaunchKernel, которая может составлять десятки микросекунд. Эта задержка является одним из источников накладных расходов при инференсе LLM.

Где встречается

310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
800+ вопросов

CUDA API calls latency

CUDA API calls latency

Определение

Где встречается

Навигация