中文翻译暂不可用,显示俄语原文。
launch overhead
launch overhead
Определение
Накладные расходы времени, связанные с запуском каждой операции (kernel) на GPU/TPU; снижаются за счет слияния операций (kernel fusion).
Где встречается
- 310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
- 319. Как работает XLA (Accelerated Linear Algebra) для LLM на TPU
- 321. Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)
- 322. Что такое operator fusion в компиляторах и какие паттерны fusion существуют
- 459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
- 473. Что такое torch.compile и как он ускоряет training
- 845. Как работают CUDA graphs и когда их использовать
- 800+ вопросов
- 92. Профилировать GPU utilization падение