Поиск

  • wikionline-метрики

    # online-метрики ## Определение Бизнес-метрики на реальном трафике (user satisfaction, CTR, task success rate) или метрики, оцениваемые LLM-судьёй. ## Где…

  • wikioffline-метрики

    # offline-метрики ## Определение Метрики, вычисляемые на статическом датасете без вызова LLM, например hit rate, MRR, accuracy, F1, BLEU, ROUGE. Используются…

  • wikidownstream metrics

    # downstream metrics ## Определение Метрики на целевых задачах, используемые для оценки качества модели; их падение при росте proxy reward сигнализирует о…

  • wikiCorrelation Metrics

    # Correlation Metrics ## Определение Метрики, измеряющие корреляцию между различными показателями системы, например, между задержкой retrieval и генерации. ## Где встречается - [[Практика|Практика…

  • wikiметрики успеха

    # метрики успеха ## Определение Количественные показатели, используемые для оценки эффективности LLM-системы в продукте, например, точность ответов, время отклика или пользовательская…

  • wikicustom metrics

    # custom metrics ## Определение Пользовательские метрики, используемые совместно с OpenTelemetry для измерения затрат по компонентам и масштабирования подов. ## Где встречается - [[800…

  • wikiGatling

    # Gatling ## Определение Инструмент нагрузочного тестирования на Scala/Java для оценки производительности LLM endpoint'ов, измеряющий ключевые метрики (пропускная способность, задержки…

  • wikiDCGM

    # DCGM ## Определение Инструмент NVIDIA для управления и мониторинга GPU в дата-центрах, собирающий метрики утилизации, памяти и температуры для Prometheus…

  • wikiquality metrics

    # quality metrics ## Определение Метрики для мониторинга качества ответов модели в production, используемые в canary deployment и других сценариях развёртывания. ## Где…

  • wikihigh-cardinality metrics

    # high-cardinality metrics ## Определение Метрики с высокой кардинальностью — метрики, имеющие большое количество уникальных значений (например, user_id), что создаёт проблемы…

  • wikirelative improvement

    # relative improvement ## Определение Сравнение метрики (например, NDCG@10) после применения улучшения относительно baseline; целевой прирост часто составляет ≥30%. ## Где встречается…

  • answerКакие метрики вы мониторите для LLM в production?

    …Системные метрики (инфраструктурный уровень) На этом уровне мы отслеживаем, как LLM-сервис использует [[Вики/compute\|вычислительные ресурсы]]. Эти метрики критичны…

  • wikiScorers

    # Scorers ## Определение Метрики оценки, такие как faithfulness, answer relevance и tool-usage correctness, используемые для измерения качества ответов. ## Где встречается…

  • wikiLLM evaluation metrics

    # LLM evaluation metrics ## Определение Количественные показатели для оценки качества ответов LLM, такие как точность, релевантность, уверенность. Используются для управления привилегиями…

  • wikicoordination metrics

    # coordination metrics ## Определение Метрики для оценки взаимодействия агентов в мультиагентной системе, включающие количество коллабораций, успешность выполнения задач и латентность. ## Где…

  • answerКак делать rollback промпта (auto-rollback при деградации метрик)?

    …Используются как [[Вики/offline-метрики\|оффлайн-метрики]] (на тестовых датасетах перед деплоем), так и [[Вики/online-метрики\|онлайн-метрики]] (в…

  • wikiFailure modes

    …Как вы делаете load testing для LLM endpoint Какие метрики ключевые|216. Как вы делаете load testing для LLM endpoint…

  • wikiThresholds

    …Как вы делаете load testing для LLM endpoint Какие метрики ключевые|216. Как вы делаете load testing для LLM endpoint…

  • wikiUX metrics

    # UX metrics ## Определение Числовые показатели успешности интерфейса, такие как время замечания индикатора и точность интерпретации, используемые для оценки диалоговых систем…

  • answerКак вы проверяете, что новая версия модели не сломала старые кейсы?

    …Затем сравниваем метрики. Используются как автоматические, так и LLM-асистированные метрики. | Метрика | Что измеряет | Инструмент | |---------|--------------|------------| | **Faithfulness** | Нет ли галлюцинаций (фактов…

  • wikiproxy metrics

    # proxy metrics ## Определение Показатели, коррелирующие с реальным поведением, но не являющиеся прямым измерением; помогают избежать overfitting на бенчмарках. ## Где встречается…

  • wikiNLI

    …Назовите 3 ключевые метрики.|16. Как вы оцениваете качество генерации в RAG. Назовите 3 ключевые метрики.]] - [[62. Какие метрики вы…

  • wikiVirtual Users

    …Как вы делаете load testing для LLM endpoint Какие метрики ключевые|216. Как вы делаете load testing для LLM endpoint…

  • wikiPosition-aware metrics

    # Position-aware metrics ## Определение Класс метрик, учитывающих порядок документов в выдаче; критичны для RAG, так как LLM видит только top…

  • wikik6

    # k6 ## Определение Инструмент нагрузочного тестирования с JavaScript-сценариями, поддерживающий HTTP/2, стриминг и встроенные метрики. Используется для load testing LLM…

  • wikistructured loss metrics

    # structured loss metrics ## Определение Метрики для оценки качества парсинга структурированных элементов документов (заголовков, таблиц, списков) в формате потерь, применяемые при…

  • wikiSaturation point

    …Как вы делаете load testing для LLM endpoint Какие метрики ключевые|216. Как вы делаете load testing для LLM endpoint…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать runbook для synthetic data collapse

    …Обучите [[Вики/model\|модель]] на настоящих данных → зафиксируйте [[Вики/baseline\|baseline]] метрики ([[Вики/accuracy\|accuracy]], F1, [[Вики/Entropy\|entropy]] предсказаний…

  • wikiтокены

    …Как вы делаете load testing для LLM endpoint Какие метрики ключевые|216. Как вы делаете load testing для LLM endpoint…

  • wikiHorizontal scaling

    …Как вы делаете load testing для LLM endpoint Какие метрики ключевые|216. Как вы делаете load testing для LLM endpoint…

  • wikiInfluxDB

    …Как вы делаете load testing для LLM endpoint Какие метрики ключевые|216. Как вы делаете load testing для LLM endpoint…

  • answerЧем отличается эвалюация LLM от эвалюации традиционных ML моделей?

    Метрики для традиционных ML Традиционные ML используют **автоматические метрики**, которые вычисляются по формуле без участия человека. Для классификации - [[Вики/accuracy…

  • wikiContext relevance

    …Назовите 3 ключевые метрики.|16. Как вы оцениваете качество генерации в RAG. Назовите 3 ключевые метрики.]] - [[62. Какие метрики вы…

  • answerКакие инструменты для агентской эвалюации вы используете?

    …Сравнение инструментов для агентской эвалюации | Инструмент | Основное назначение | Встроенные метрики | Кастомные метрики | Drift detection | Fairness | Production мониторинг | |------------|---------------------|-------------------|-------------------|-----------------|----------|----------------------| | [[Вики/LangSmith\|LangSmith…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Агент с наблюдаемостью (OpenTelemetry)

    …ключевые метрики | | 201 | Развертывание стека наблюдаемости через docker-compose | | 317 | Обработка ошибок и метрики error rate | ## 10. Чек-лист самопроверки…

  • answerКак вы A/B тестируете две версии промпта в production?

    Метрики для сравнения промптов Метрики делятся на онлайн (собираются в [[Вики/production\|production]]) и офлайн (вычисляются на семпле с помощью…

  • wikinvidia-smi

    …Показывает текущую утилизацию, использование памяти, температуру и другие метрики. Является основным диагностическим инструментом для GPU. ## Где встречается - [[62. Какие метрики

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить prompt observability

    …Ожидаемый результат этапа Prometheus и Grafana запущены, генератор отправляет метрики, в Prometheus доступны метрики `prompt_latency_seconds`, `prompt_tokens_total…

  • answerКак вы оцениваете качество генерации в RAG? Назовите 3 ключевые метрики.

    …Как вы оцениваете качество генерации в RAG? Назовите 3 ключевые метрики. ## Краткий тезис [[Вики/Evaluation\|Оценка качества]] генерации в [[Вики…

  • wikiself-BLEU

    …Какие метрики вы мониторите для LLM в production|62. Какие метрики вы мониторите для LLM в production]] - [[173. Как вы…

  • answerКак вы проводите A/B тест метрик качества (не бизнес-метрик)?

    …Ключевые метрики для такого теста: [[Вики/Inter-annotator agreement\|Cohen's Kappa]] ([[Вики/Inter-annotator agreement\|согласие]] с человеком), **[[Вики…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Интегрировать тестирование в CI/CD

    …цель, метрики, процесс. 3. Зафиксировать артефакты - [[Вики/baseline\|Baseline]] метрики. - Пример отчёта с падением. Ожидаемый результат этапа Документированный процесс, готовый…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить RED metrics для LLM

    …Экспортировать метрики на `/metrics` с помощью `[[Вики/Prometheus client\|prometheus_client]].generate_latest()`. 4. Проверить метрики через `[[Вики/Curl\|curl…

  • answerКак делать canary deployment для промптов (5% трафика)?

    …на каждом этапе сравниваются **метрики новой версии ([[Вики/canary deployment\|canary]])** против **[[Вики/baseline\|baseline]]** (старой версии) с использованием статистической…

  • answerКак вы оцениваете качество retrieval'а в RAG-системе?

    …Термин «[[Вики/offline-метрики\|Оффлайн-метрики]]» ([[Вики/offline-метрики\|Offline metrics]] Считаются на статическом датасете, без реальных пользователей. --- ### 1.1…

  • wikiclaim extraction

    …Какие метрики вы мониторите для LLM в production|62. Какие метрики вы мониторите для LLM в production]] - [[134. Как вы…

  • answerКак вы проектируете canary deployment для LLM модели?

    …Нужны [[Вики/online-метрики\|онлайн-метрики]] ([[Вики/accuracy\|faithfulness]], [[Вики/Answer quality\|answer relevance]], [[Вики/toxic content\|toxicity]]). - Высокая [[Вики…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать postmortem для retrieval degradation

    …Вы научитесь собирать и интерпретировать [[Вики/logs\|логи]] и метрики, находить [[Вики/RCA\|root cause]], разрабатывать fix и документировать инцидент…

  • answerЧто такое «canary testing» для агентов (10% трафика на новую версию)?

    …автономные метрики [[Вики/No hallucination\|faithfulness]] и [[Вики/Answer relevance\|answer relevance]] не всегда точно отражают поведение в реальном мире…

  • wikiGPU utilization

    …Какие метрики вы мониторите для LLM в production|62. Какие метрики вы мониторите для LLM в production]] - [[216. Как вы…