memory bandwidth utilization
memory bandwidth utilization
Определение
Метрика доли используемой пропускной способности памяти; ключевой показатель эффективности LLM serving, особенно decode stage.
Где встречается
- 305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
- 436. В чем разница между prefill и decode stage в LLM инференсе
- 444. Почему 4-bit inference иногда медленнее 8-bit
- 800+ вопросов
- 92. Профилировать GPU utilization падение