kernel fusion

Определение

Объединение нескольких последовательных операций в один CUDA-кернел для уменьшения overhead запуска и обращений к HBM. Промежуточные результаты остаются в shared memory/регистрах, повышая пропускную способность LLM-сервинга.

Где встречается

6. Что такое гибридный поиск и когда он нужен
301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
302. Что такое warp divergence в CUDA и как он влияет на attention
304. Что такое FlashAttention с точки зрения CUDA programming
305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
311. Что такое CUDA graphs и как они ускоряют LLM инференс
317. Что такое MLIR и как он используется в IREETensorRT-LLM
318. TensorRT-LLM vs vLLM — сравнение для production deployment.
319. Как работает XLA (Accelerated Linear Algebra) для LLM на TPU
320. Что такое ONNX Runtime и когда он выгоден для LLM
321. Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)
322. Что такое operator fusion в компиляторах и какие паттерны fusion существуют
325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели
436. В чем разница между prefill и decode stage в LLM инференсе
459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
473. Что такое torch.compile и как он ускоряет training
549. Как вы проектируете систему для real-time video understanding (поток с камеры)
703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
712. Что такое Cooperative Groups в CUDA и как использовать для attention
800+ вопросов

kernel fusion

kernel fusion

Определение

Где встречается

Навигация

kernel fusion

kernel fusion

Определение

Где встречается

Навигация