NVIDIA DCGM Exporter
NVIDIA DCGM Exporter
Определение
Экспортер метрик GPU для Prometheus, собирающий данные об утилизации, памяти, температуре и других характеристиках NVIDIA GPU. Позволяет мониторить состояние GPU-кластера через стандартные инструменты observability.
Где встречается
- 825. Что такое autoscaling inference и как его настроить
- 72. Настроить capacity planning для GPU кластера
- 74. Настроить auto-scaling для vLLM
- 192. Настроить autoscaling для LLM сервера