English translation is not available yet. Showing Russian content.
GPU utilization
GPU utilization
Определение
Метрика, показывающая степень загрузки вычислительных блоков GPU во время выполнения задач. Низкое значение (<50%) указывает на узкие места, например, в decode stage.
Где встречается
- 62. Какие метрики вы мониторите для LLM в production
- 216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
- 249. Как вы делаете load shedding при перегрузке LLM сервера
- 305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
- 310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
- 390. Как вы проектируем on-call ротацию для AI сервиса
- 403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
- 411. Как вы проектируете backpressure в LLM serving системе
- 416. Как вы делаете load shedding при перегрузке LLM сервера
- 438. Что такое continuous batching Как реализовано в vLLM
- 459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
- 776. Как считать TCO (Total Cost of Ownership) для RAGAgent системы
- 825. Что такое autoscaling inference и как его настроить
- 826. Как организовать GPU scheduling для multi-tenant LLM serving
- 843. Что такое continuous batching и как оно влияет на throughput
- Практика
- 800+ вопросов
- 72. Настроить capacity planning для GPU кластера
- 74. Настроить auto-scaling для vLLM
- 92. Профилировать GPU utilization падение
- 192. Настроить autoscaling для LLM сервера
- 215. Настроить expert parallelism для Mixtral