中文翻译暂不可用,显示俄语原文。
kernel fusion
kernel fusion
Определение
Объединение нескольких последовательных операций в один CUDA-кернел для уменьшения overhead запуска и обращений к HBM. Промежуточные результаты остаются в shared memory/регистрах, повышая пропускную способность LLM-сервинга.
Где встречается
- 6. Что такое гибридный поиск и когда он нужен
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
- 302. Что такое warp divergence в CUDA и как он влияет на attention
- 304. Что такое FlashAttention с точки зрения CUDA programming
- 305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
- 310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
- 311. Что такое CUDA graphs и как они ускоряют LLM инференс
- 317. Что такое MLIR и как он используется в IREETensorRT-LLM
- 318. TensorRT-LLM vs vLLM — сравнение для production deployment.
- 319. Как работает XLA (Accelerated Linear Algebra) для LLM на TPU
- 320. Что такое ONNX Runtime и когда он выгоден для LLM
- 321. Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)
- 322. Что такое operator fusion в компиляторах и какие паттерны fusion существуют
- 325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели
- 436. В чем разница между prefill и decode stage в LLM инференсе
- 459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
- 473. Что такое torch.compile и как он ускоряет training
- 549. Как вы проектируете систему для real-time video understanding (поток с камеры)
- 703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
- 710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
- 712. Что такое Cooperative Groups в CUDA и как использовать для attention
- 800+ вопросов