Grafana
Grafana
Определение
Grafana — это платформа для визуализации временных рядов метрик и построения дашбордов мониторинга. Часто используется вместе с Prometheus для отслеживания производительности LLM в production.
Где встречается
- 55. Как вы измеряете стоимость (токены) агентской системы
- 56. Как вы делаете агента отказоустойчивым (graceful degradation)
- 60. Как вы обрабатываете ошибки агента (action не сработал, API вернул ошибку)
- 62. Какие метрики вы мониторите для LLM в production
- 70. Как вы снижаете стоимость LLM в production на 50%+
- 73. Как вы логируете все вызовы LLM для аудита
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 81. Как бы вы спроектировали систему для 1000 одновременных пользователей чат-бота с RAG
- 82. Как бы вы спроектировали систему для реального времени (real-time) обработки документов
- 106. Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику
- 109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production
- 139. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
- 216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
- 220. Как вы выбираете между online и batch инференсом для LLM
- 240. Как вы проектируете dead letter queue для failed LLM инференс запросов
- 243. Как вы делаете blue-green deployment для RAG системы с zero downtime
- 244. Как вы проектируете backpressure в LLM serving системе
- 247. Как вы проектируете multi-region active-active для LLM API
- 249. Как вы делаете load shedding при перегрузке LLM сервера
- 253. Как вы делаете асинхронную обработку long-running (30s) LLM задач
- 256. Как вы проектируете ETL пайплайн для 1M документовдень в RAG систему
- 269. Как вы обрабатываете streaming данные для real-time RAG
- 272. Как вы проверяете качество parsing документов (PDF, DOCX) в production
- 273. Как вы обрабатываете corrupted или empty документы в ingestion пайплайне
- 381. Как вы определяете SLO и SLA для LLM сервиса
- 382. Как вы проектируете canary deployment для LLM модели
- 383. Что такое error budget для AI качества и как его считать
- 388. Что такое SLI (Service Level Indicators) для AI системы и как их собирать
- 390. Как вы проектируем on-call ротацию для AI сервиса
- 391. Как вы проектируете агента, который может работать непрерывно (247) без дрейфа поведения
- 400. Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофиче...
- 403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
- 407. Как вы проектируете dead letter queue для failed LLM инференс запросов
- 409. Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes
- 411. Как вы проектируете backpressure в LLM serving системе
- 413. Что такое sidecar pattern для LLM observability и как его реализовать
- 416. Как вы делаете load shedding при перегрузке LLM сервера
- 452. Как вы управляете memory fragmentation при длительном раннинге LLM сервера
- 504. Как вы оцениваете cost-effectiveness LLM-пайплайна