ncu
ncu
Определение
Инструмент NVIDIA Nsight Compute для детального анализа производительности CUDA-ядер: occupancy, warp stall, инструкции. Позволяет профилировать отдельные ядра.
Где встречается
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
- 302. Что такое warp divergence в CUDA и как он влияет на attention
- 305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
- 308. Как работают CUDA streams и как они помогают оверлапить compute и communication
- 459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
- 703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
- 704. Что такое bank conflicts в shared memory и как их избежать
- 705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100
- 710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
- 711. Как работает speculative execution на GPU для LLM (branch prediction)
- 712. Что такое Cooperative Groups в CUDA и как использовать для attention
- 845. Как работают CUDA graphs и когда их использовать
- Практика
- 800+ вопросов
- 53. Реализовать selective scan (Mamba)
- 92. Профилировать GPU utilization падение
- 214. Реализовать FP8 инференс на H100