Поиск

  • wikioffline-метрики

    Метрики, вычисляемые на статическом датасете без вызова LLM, например hit rate, MRR, accuracy, F1, BLEU, ROUGE. Используются для оценки качества

  • wikionline-метрики

    # online-метрики ## Определение Бизнес-метрики на реальном трафике (user satisfaction, CTR, task success rate) или метрики, оцениваемые LLM-судьёй. ## Где…

  • wikiquality metrics

    # quality metrics ## Определение Метрики для мониторинга качества ответов модели в production, используемые в canary deployment и других сценариях развёртывания. ## Где…

  • wikiContext relevance

    …Назовите 3 ключевые метрики.|16. Как вы оцениваете качество генерации в RAG. Назовите 3 ключевые метрики.]] - [[62. Какие метрики вы…

  • wikiScorers

    # Scorers ## Определение Метрики оценки, такие как faithfulness, answer relevance и tool-usage correctness, используемые для измерения качества ответов. ## Где встречается…

  • wikiLLM evaluation metrics

    # LLM evaluation metrics ## Определение Количественные показатели для оценки качества ответов LLM, такие как точность, релевантность, уверенность. Используются для управления привилегиями…

  • wikiFlagger

    …canary-релизов, который отслеживает метрики (например, из Prometheus) и автоматически откатывает новую версию при деградации качества. ## Где встречается - [[385. Как…

  • wikidownstream metrics

    # downstream metrics ## Определение Метрики на целевых задачах, используемые для оценки качества модели; их падение при росте proxy reward сигнализирует о…

  • wikistructured loss metrics

    # structured loss metrics ## Определение Метрики для оценки качества парсинга структурированных элементов документов (заголовков, таблиц, списков) в формате потерь, применяемые при…

  • answerКак вы проводите A/B тест метрик качества (не бизнес-метрик)?

    …В контексте метрик качества мы сравниваем не две версии продукта, а два способа измерения. Метрики качества ([[Вики/quality\|quality]] [[Вики…

  • wikidrift metrics

    # drift metrics ## Определение Метрики для обнаружения изменений в поведении агента со временем. Используются для мониторинга дрейфа качества. ## Где встречается - [[800…

  • wikiRetrieval metrics

    # Retrieval metrics ## Определение Метрики оценки качества поиска (например, recall, precision), обязательные в CI для обнаружения деградации retrieval. ## Где встречается - [[800…

  • wikitest plan

    # test plan ## Определение Документ, описывающий сценарии тестирования, метрики и критерии успеха для агента, используемый для систематической оценки качества. ## Где встречается…

  • wikievaluator scores

    # evaluator scores ## Определение Метрики, такие как faithfulness и answer relevance, используемые для оценки дрейфа модели и качества ответов. ## Где встречается…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить canary deployment промптов

    …Критерии приемки (Definition of Done) - [ ] 5% трафика идёт на новую версию промпта (проверено через лог или дашборд). - [ ] Метрики качества собираются…

  • answerКак вы проектируете canary deployment для LLM модели?

    …Офлайн-тесты не гарантируют поведение в продакшене. - Сложность оценки качества: метрики вроде BLEU/ROUGE не всегда коррелируют с пользовательской удовлетворённостью…

  • wikisacrebleu

    # sacrebleu ## Определение Библиотека для расчёта метрики BLEU, применяемая в задачах оценки качества генерации текста, например, для self-BLEU при детекции…

  • wikiquality score

    # quality score ## Определение Численная оценка качества ответа, например, через косинусное сходство с эталоном или другие автоматические метрики. ## Где встречается - [[71…

  • wikiacceptance threshold

    …ухудшение метрики не более 5%), используемый для принятия решения о продвижении модели из staging в production. Обеспечивает контроль качества при…

  • wikiEvaluator

    # Evaluator ## Определение Компонент, запускающий метрики (например faithfulness, accuracy) на собранных логах для регулярной оценки качества модели. ## Где встречается - [[109. Как…

  • wikiQuality gates

    …агента или останавливают пайплайн при их падении, обеспечивая контроль качества. ## Где встречается - [[738. Назовите 12+ слоёв эталонной архитектуры Harness.|738…

  • answerЧто такое error budget для AI качества и как его считать?

    …Какие метрики AI качества использовать для SLO Для AI-систем (особенно [[Вики/RAG\|RAG]] и [[Вики/Agentic RAG\|Agentic RAG…

  • wikiEval runner

    # Eval runner ## Определение Компонент, запускающий сценарии оценки и собирающий метрики для измерения качества агента. ## Где встречается - [[748. Как в Harness…

  • wikiBLEURT

    # BLEURT ## Определение Обученная модель для оценки качества сгенерированного текста. BLEURT предсказывает оценку на основе сравнения с эталоном и лучше коррелирует…

  • answerКак делать rollback промпта (auto-rollback при деградации метрик)?

    качества в Agentic RAG? | | 802 | Как проводить A/B тестирование промптов? | | 806 | Как управлять промптами в production? | | 807 | Какие метрики

  • wikiRAG evaluation

    …evaluation) — процесс измерения качества поиска и генерации в RAG-системе, часто с использованием синтетических датасетов. Метрики оценивают точность, релевантность и…

  • wikiQoS

    # QoS ## Определение Метрики качества обслуживания в production LLM, включающие приоритизацию трафика и управление нагрузкой для обеспечения стабильной работы. ## Где встречается…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать canary deployment агента с автооткатом

    …Убедитесь, что метрики из агента (latency, error rate) поступают. 5. Реализуйте метрику качества: - Напишите Python-скрипт `quality_metric.py`, который…

  • wikiRAGAS

    # RAGAS ## Определение RAGAS (Retrieval Augmented Generation Assessment) — фреймворк для автоматической оценки RAG-систем, включающий метрики faithfulness, answer relevance и context…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с cost-aware routing

    …Ключевой результат Рабочий [[Вики/Prototype\|прототип]] RAG-системы с cost-aware роутингом, метрики затрат и качества собранные за неделю тестирования…

  • wikiSLI

    # SLI ## Определение Измеряемые метрики (latency, faithfulness, availability) уровня обслуживания, используемые для мониторинга выполнения SLO и SLA. ## Где встречается - [[381. Как…

  • answerКак вы проверяете качество parsing документов (PDF, DOCX) в production?

    Метрики качества Parsing ### 3.1 Точность извлечения текста **Error Rate|Character Error Rate (CER)** — доля неверных символов (вставок, удалений, замен…

  • answerЧем отличается эвалюация LLM от эвалюации традиционных ML моделей?

    Метрики для LLM (оценка качества генерации) [[Вики/LLM-as-a-judge\|Оценка LLM]] делится на три уровня: ### 4.1 Автоматические…

  • answerЧто такое «prompt observability» (мониторинг эффективности промптов в production)?

    …Расширим. ### 2.1 Метрики качества (Quality Metrics) - **[[Вики/accuracy\|Faithfulness]] ([[Вики/accuracy\|фактологическая точность]])** — насколько ответ [[Вики/GPT-4o\|LLM…

  • answerКак вы измеряете drift retrieval-качества в RAG (когда документы меняются)?

    …Это и есть **drift retrieval-качества**. --- ## 3. Метрики для обнаружения дрейфа Для мониторинга дрейфа используют те же метрики, что и…

  • answerКак вы измеряете drift retrieval-качества в RAG (когда документы меняются)?

    …Как вы измеряете drift retrieval-качества в RAG (когда документы меняются)? ## Краткий тезис [[Вики/drift retrieval-качества\|Drift retrieval-качества

  • answerКакие метрики вы мониторите для LLM в production?

    Метрики качества (Quality) — LLM-as-a-Judge Качество ответов в [[Вики/production\|production]] оценивается через автоматизированные метрики (обычно в batch…

  • wikiHelpfulness / Harmlessness

    # Helpfulness / Harmlessness ## Определение Метрики качества и безопасности ответов LLM: полезность (helpfulness) и безвредность (harmlessness); используются в бенчмарках HH-RLHF. ## Где…

  • wikiPrecision/Recall

    # Precision/Recall ## Определение Метрики для оценки качества классификации: precision — доля верно обнаруженных среди всех найденных, recall — доля найденных среди всех…

  • wikiCold-start

    …Как вы делаете load testing для LLM endpoint Какие метрики ключевые|216. Как вы делаете load testing для LLM endpoint…

  • answerЧто такое Harness Engineering и чем он отличается от Prompt Engineering и MLOps?

    …Как тестировать и оценивать Agentic RAG-системы? | | 741 | Какие метрики качества важны для Agentic RAG? | | 742 | Как управлять версиями промптов…

  • answerКак вы проверяете качество парсинга документов (PDF, DOCX) в production?

    Метрики качества парсинга ### 4.1 Character Error Rate (CER) Формула ``` CER = (S + D + I) / N ``` где: - S — количество заменённых символов…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Агент с human-in-the-loop — эскалация человеку при low confidence

    …архитектурные паттерны | | 77 | Оценка качества RAG-систем (метрики ROUGE, BLEU) | | 101 | Графы LangGraph: conditional edges | | 143 | Обработка исключений и fallback…

  • answerКак вы оцениваете качество после fine-tuning?

    …тезис [[Вики/Evaluation\|Оценка качества]] после **[[Вики/SFT\|fine-tuning]]** — это многоуровневый процесс, сочетающий автоматические метрики, **[[Вики/LLM-as-a…

  • answerКак вы оцениваете cost-effectiveness LLM-пайплайна?

    …Как вы проверяете, что новая версия модели не сломала старые кейсы\|140]] | Какие метрики качества LLM-пайплайна вы знаете | | [[141…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Интегрировать тестирование в CI/CD

    …Тестовый фреймворк | pytest + pytest-cov | Написание и выполнение тестов | | Метрики качества | RAGAS (или самописные: точность ответа, latency) | Оценка ответов агента…

  • answerКак проектировать golden dataset для agent evaluation?

    …Зачем нужен golden dataset для агентов? - Объективная [[Вики/Evaluation\|оценка качества]] — можно автоматически прогонять агента на датасете и считать метрики

  • answerКак вы автоматизируете rollback при деградации качества?

    …Как вы делаем disaster recovery с RPO 1 минута\|389]] | Какие метрики качества вы отслеживаете в Agentic RAG? | --- ## Навигация (Obsidian…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Fine-tune embedding под домен

    …Ожидается улучшение качества [[Вики/retrieval\|retrieval]] ([[Вики/Recall@k\|Recall@10]]) минимум на 15% относительно [[Вики/baseline\|baseline]] без [[Вики…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить retrieval quality dashboard

    …Связанные вопросы из базы знаний | Вопрос | Тема | |--------|------| | 14 | Как настроить Prometheus + Grafana? | | 23 | Основные метрики качества retrieval (hit rate, MRR…