English translation is not available yet. Showing Russian content.

CUDA graphs

CUDA graphs

Определение

Техника записи последовательности CUDA операций в граф, который затем может быть запущен одним вызовом, устраняя накладные расходы на запуск каждого отдельного ядра. Ускоряет инференс LLM на 10-30%, особенно для коротких запросов.

Где встречается

Навигация