ncu

Определение

Инструмент NVIDIA Nsight Compute для детального анализа производительности CUDA-ядер: occupancy, warp stall, инструкции. Позволяет профилировать отдельные ядра.

Где встречается

300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
302. Что такое warp divergence в CUDA и как он влияет на attention
305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
308. Как работают CUDA streams и как они помогают оверлапить compute и communication
459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
704. Что такое bank conflicts в shared memory и как их избежать
705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100
710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
711. Как работает speculative execution на GPU для LLM (branch prediction)
712. Что такое Cooperative Groups в CUDA и как использовать для attention
845. Как работают CUDA graphs и когда их использовать
Практика
800+ вопросов
53. Реализовать selective scan (Mamba)
92. Профилировать GPU utilization падение
214. Реализовать FP8 инференс на H100

ncu

ncu

Определение

Где встречается

Навигация