occupancy

Определение

Мера загрузки вычислительных ресурсов GPU; отношение активных warp'ов к максимально возможному на SM. Высокая occupancy помогает скрыть задержки HBM и повысить производительность.

Где встречается

302. Что такое warp divergence в CUDA и как он влияет на attention
304. Что такое FlashAttention с точки зрения CUDA programming
305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
452. Как вы управляете memory fragmentation при длительном раннинге LLM сервера
459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
711. Как работает speculative execution на GPU для LLM (branch prediction)
826. Как организовать GPU scheduling для multi-tenant LLM serving
800+ вопросов
92. Профилировать GPU utilization падение

occupancy

occupancy

Определение

Где встречается

Навигация