Поиск
- wikionline-метрики
# online-метрики ## Определение Бизнес-метрики на реальном трафике (user satisfaction, CTR, task success rate) или метрики, оцениваемые LLM-судьёй. ## Где…
- wikioffline-метрики
# offline-метрики ## Определение Метрики, вычисляемые на статическом датасете без вызова LLM, например hit rate, MRR, accuracy, F1, BLEU, ROUGE. Используются…
- wikidownstream metrics
# downstream metrics ## Определение Метрики на целевых задачах, используемые для оценки качества модели; их падение при росте proxy reward сигнализирует о…
- wikiCorrelation Metrics
# Correlation Metrics ## Определение Метрики, измеряющие корреляцию между различными показателями системы, например, между задержкой retrieval и генерации. ## Где встречается - [[Практика|Практика…
- wikiметрики успеха
# метрики успеха ## Определение Количественные показатели, используемые для оценки эффективности LLM-системы в продукте, например, точность ответов, время отклика или пользовательская…
- wikicustom metrics
# custom metrics ## Определение Пользовательские метрики, используемые совместно с OpenTelemetry для измерения затрат по компонентам и масштабирования подов. ## Где встречается - [[800…
- wikiGatling
# Gatling ## Определение Инструмент нагрузочного тестирования на Scala/Java для оценки производительности LLM endpoint'ов, измеряющий ключевые метрики (пропускная способность, задержки…
- wikiDCGM
# DCGM ## Определение Инструмент NVIDIA для управления и мониторинга GPU в дата-центрах, собирающий метрики утилизации, памяти и температуры для Prometheus…
- wikiquality metrics
# quality metrics ## Определение Метрики для мониторинга качества ответов модели в production, используемые в canary deployment и других сценариях развёртывания. ## Где…
- wikihigh-cardinality metrics
# high-cardinality metrics ## Определение Метрики с высокой кардинальностью — метрики, имеющие большое количество уникальных значений (например, user_id), что создаёт проблемы…
- wikirelative improvement
# relative improvement ## Определение Сравнение метрики (например, NDCG@10) после применения улучшения относительно baseline; целевой прирост часто составляет ≥30%. ## Где встречается…
- answerКакие метрики вы мониторите для LLM в production?
…Системные метрики (инфраструктурный уровень) На этом уровне мы отслеживаем, как LLM-сервис использует [[Вики/compute\|вычислительные ресурсы]]. Эти метрики критичны…
- wikiScorers
# Scorers ## Определение Метрики оценки, такие как faithfulness, answer relevance и tool-usage correctness, используемые для измерения качества ответов. ## Где встречается…
- wikiLLM evaluation metrics
# LLM evaluation metrics ## Определение Количественные показатели для оценки качества ответов LLM, такие как точность, релевантность, уверенность. Используются для управления привилегиями…
- wikicoordination metrics
# coordination metrics ## Определение Метрики для оценки взаимодействия агентов в мультиагентной системе, включающие количество коллабораций, успешность выполнения задач и латентность. ## Где…
- answerКак делать rollback промпта (auto-rollback при деградации метрик)?
…Используются как [[Вики/offline-метрики\|оффлайн-метрики]] (на тестовых датасетах перед деплоем), так и [[Вики/online-метрики\|онлайн-метрики]] (в…
- wikiFailure modes
…Как вы делаете load testing для LLM endpoint Какие метрики ключевые|216. Как вы делаете load testing для LLM endpoint…
- wikiThresholds
…Как вы делаете load testing для LLM endpoint Какие метрики ключевые|216. Как вы делаете load testing для LLM endpoint…
- wikiUX metrics
# UX metrics ## Определение Числовые показатели успешности интерфейса, такие как время замечания индикатора и точность интерпретации, используемые для оценки диалоговых систем…
- answerКак вы проверяете, что новая версия модели не сломала старые кейсы?
…Затем сравниваем метрики. Используются как автоматические, так и LLM-асистированные метрики. | Метрика | Что измеряет | Инструмент | |---------|--------------|------------| | **Faithfulness** | Нет ли галлюцинаций (фактов…
- wikiproxy metrics
# proxy metrics ## Определение Показатели, коррелирующие с реальным поведением, но не являющиеся прямым измерением; помогают избежать overfitting на бенчмарках. ## Где встречается…
- wikiNLI
…Назовите 3 ключевые метрики.|16. Как вы оцениваете качество генерации в RAG. Назовите 3 ключевые метрики.]] - [[62. Какие метрики вы…
- wikiVirtual Users
…Как вы делаете load testing для LLM endpoint Какие метрики ключевые|216. Как вы делаете load testing для LLM endpoint…
- wikiPosition-aware metrics
# Position-aware metrics ## Определение Класс метрик, учитывающих порядок документов в выдаче; критичны для RAG, так как LLM видит только top…
- wikik6
# k6 ## Определение Инструмент нагрузочного тестирования с JavaScript-сценариями, поддерживающий HTTP/2, стриминг и встроенные метрики. Используется для load testing LLM…
- wikistructured loss metrics
# structured loss metrics ## Определение Метрики для оценки качества парсинга структурированных элементов документов (заголовков, таблиц, списков) в формате потерь, применяемые при…
- wikiSaturation point
…Как вы делаете load testing для LLM endpoint Какие метрики ключевые|216. Как вы делаете load testing для LLM endpoint…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать runbook для synthetic data collapse
…Обучите [[Вики/model\|модель]] на настоящих данных → зафиксируйте [[Вики/baseline\|baseline]] метрики ([[Вики/accuracy\|accuracy]], F1, [[Вики/Entropy\|entropy]] предсказаний…
- wikiтокены
…Как вы делаете load testing для LLM endpoint Какие метрики ключевые|216. Как вы делаете load testing для LLM endpoint…
- wikiHorizontal scaling
…Как вы делаете load testing для LLM endpoint Какие метрики ключевые|216. Как вы делаете load testing для LLM endpoint…
- wikiInfluxDB
…Как вы делаете load testing для LLM endpoint Какие метрики ключевые|216. Как вы делаете load testing для LLM endpoint…
- answerЧем отличается эвалюация LLM от эвалюации традиционных ML моделей?
…Метрики для традиционных ML Традиционные ML используют **автоматические метрики**, которые вычисляются по формуле без участия человека. Для классификации - [[Вики/accuracy…
- wikiContext relevance
…Назовите 3 ключевые метрики.|16. Как вы оцениваете качество генерации в RAG. Назовите 3 ключевые метрики.]] - [[62. Какие метрики вы…
- answerКакие инструменты для агентской эвалюации вы используете?
…Сравнение инструментов для агентской эвалюации | Инструмент | Основное назначение | Встроенные метрики | Кастомные метрики | Drift detection | Fairness | Production мониторинг | |------------|---------------------|-------------------|-------------------|-----------------|----------|----------------------| | [[Вики/LangSmith\|LangSmith…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Агент с наблюдаемостью (OpenTelemetry)
…ключевые метрики | | 201 | Развертывание стека наблюдаемости через docker-compose | | 317 | Обработка ошибок и метрики error rate | ## 10. Чек-лист самопроверки…
- answerКак вы A/B тестируете две версии промпта в production?
…Метрики для сравнения промптов Метрики делятся на онлайн (собираются в [[Вики/production\|production]]) и офлайн (вычисляются на семпле с помощью…
- wikinvidia-smi
…Показывает текущую утилизацию, использование памяти, температуру и другие метрики. Является основным диагностическим инструментом для GPU. ## Где встречается - [[62. Какие метрики…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить prompt observability
…Ожидаемый результат этапа Prometheus и Grafana запущены, генератор отправляет метрики, в Prometheus доступны метрики `prompt_latency_seconds`, `prompt_tokens_total…
- answerКак вы оцениваете качество генерации в RAG? Назовите 3 ключевые метрики.
…Как вы оцениваете качество генерации в RAG? Назовите 3 ключевые метрики. ## Краткий тезис [[Вики/Evaluation\|Оценка качества]] генерации в [[Вики…
- wikiself-BLEU
…Какие метрики вы мониторите для LLM в production|62. Какие метрики вы мониторите для LLM в production]] - [[173. Как вы…
- answerКак вы проводите A/B тест метрик качества (не бизнес-метрик)?
…Ключевые метрики для такого теста: [[Вики/Inter-annotator agreement\|Cohen's Kappa]] ([[Вики/Inter-annotator agreement\|согласие]] с человеком), **[[Вики…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Интегрировать тестирование в CI/CD
…цель, метрики, процесс. 3. Зафиксировать артефакты - [[Вики/baseline\|Baseline]] метрики. - Пример отчёта с падением. Ожидаемый результат этапа Документированный процесс, готовый…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить RED metrics для LLM
…Экспортировать метрики на `/metrics` с помощью `[[Вики/Prometheus client\|prometheus_client]].generate_latest()`. 4. Проверить метрики через `[[Вики/Curl\|curl…
- answerКак делать canary deployment для промптов (5% трафика)?
…на каждом этапе сравниваются **метрики новой версии ([[Вики/canary deployment\|canary]])** против **[[Вики/baseline\|baseline]]** (старой версии) с использованием статистической…
- answerКак вы оцениваете качество retrieval'а в RAG-системе?
…Термин «[[Вики/offline-метрики\|Оффлайн-метрики]]» ([[Вики/offline-метрики\|Offline metrics]] Считаются на статическом датасете, без реальных пользователей. --- ### 1.1…
- wikiclaim extraction
…Какие метрики вы мониторите для LLM в production|62. Какие метрики вы мониторите для LLM в production]] - [[134. Как вы…
- answerКак вы проектируете canary deployment для LLM модели?
…Нужны [[Вики/online-метрики\|онлайн-метрики]] ([[Вики/accuracy\|faithfulness]], [[Вики/Answer quality\|answer relevance]], [[Вики/toxic content\|toxicity]]). - Высокая [[Вики…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать postmortem для retrieval degradation
…Вы научитесь собирать и интерпретировать [[Вики/logs\|логи]] и метрики, находить [[Вики/RCA\|root cause]], разрабатывать fix и документировать инцидент…
- answerЧто такое «canary testing» для агентов (10% трафика на новую версию)?
…автономные метрики [[Вики/No hallucination\|faithfulness]] и [[Вики/Answer relevance\|answer relevance]] не всегда точно отражают поведение в реальном мире…
- wikiGPU utilization
…Какие метрики вы мониторите для LLM в production|62. Какие метрики вы мониторите для LLM в production]] - [[216. Как вы…