occupancy
occupancy
Определение
Мера загрузки вычислительных ресурсов GPU; отношение активных warp'ов к максимально возможному на SM. Высокая occupancy помогает скрыть задержки HBM и повысить производительность.
Где встречается
- 302. Что такое warp divergence в CUDA и как он влияет на attention
- 304. Что такое FlashAttention с точки зрения CUDA programming
- 305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
- 452. Как вы управляете memory fragmentation при длительном раннинге LLM сервера
- 459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
- 703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
- 706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
- 711. Как работает speculative execution на GPU для LLM (branch prediction)
- 826. Как организовать GPU scheduling для multi-tenant LLM serving
- 800+ вопросов
- 92. Профилировать GPU utilization падение