中文翻译暂不可用,显示俄语原文。

CUDA graphs

CUDA graphs

Определение

Техника записи последовательности CUDA операций в граф, который затем может быть запущен одним вызовом, устраняя накладные расходы на запуск каждого отдельного ядра. Ускоряет инференс LLM на 10-30%, особенно для коротких запросов.

Где встречается

Навигация