English translation is not available yet. Showing Russian content.
DCGM
DCGM
Определение
Инструмент NVIDIA для управления и мониторинга GPU в дата-центрах, собирающий метрики утилизации, памяти и температуры для Prometheus.
Где встречается
- 62. Какие метрики вы мониторите для LLM в production
- 826. Как организовать GPU scheduling для multi-tenant LLM serving
- 205. Настроить GPU scheduling для multi-tenant