English translation is not available yet. Showing Russian content.
CUDA graphs
CUDA graphs
Определение
Техника записи последовательности CUDA операций в граф, который затем может быть запущен одним вызовом, устраняя накладные расходы на запуск каждого отдельного ядра. Ускоряет инференс LLM на 10-30%, особенно для коротких запросов.
Где встречается
- 308. Как работают CUDA streams и как они помогают оверлапить compute и communication
- 310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
- 311. Что такое CUDA graphs и как они ускоряют LLM инференс
- 318. TensorRT-LLM vs vLLM — сравнение для production deployment.
- 459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
- 845. Как работают CUDA graphs и когда их использовать
- Практика
- 800+ вопросов