GPU utilization

Определение

Метрика, показывающая степень загрузки вычислительных блоков GPU во время выполнения задач. Низкое значение (<50%) указывает на узкие места, например, в decode stage.

Где встречается

62. Какие метрики вы мониторите для LLM в production
216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
249. Как вы делаете load shedding при перегрузке LLM сервера
305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
390. Как вы проектируем on-call ротацию для AI сервиса
403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
411. Как вы проектируете backpressure в LLM serving системе
416. Как вы делаете load shedding при перегрузке LLM сервера
438. Что такое continuous batching Как реализовано в vLLM
459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
776. Как считать TCO (Total Cost of Ownership) для RAGAgent системы
825. Что такое autoscaling inference и как его настроить
826. Как организовать GPU scheduling для multi-tenant LLM serving
843. Что такое continuous batching и как оно влияет на throughput
Практика
800+ вопросов
72. Настроить capacity planning для GPU кластера
74. Настроить auto-scaling для vLLM
92. Профилировать GPU utilization падение
192. Настроить autoscaling для LLM сервера
215. Настроить expert parallelism для Mixtral

GPU utilization

GPU utilization

Определение

Где встречается

Навигация