Warp
Warp
Определение
Базовый блок выполнения на NVIDIA GPU, группа из 32 потоков, работающих по принципу SIMT; планируется внутри SM.
Где встречается
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
- 302. Что такое warp divergence в CUDA и как он влияет на attention
- 704. Что такое bank conflicts в shared memory и как их избежать
- 705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100
- 711. Как работает speculative execution на GPU для LLM (branch prediction)
- 712. Что такое Cooperative Groups в CUDA и как использовать для attention
- 844. Как работает FlashAttention-3 математически
- 800+ вопросов
- 92. Профилировать GPU utilization падение