Поиск

wikioffline-метрики
…Метрики, вычисляемые на статическом датасете без вызова LLM, например hit rate, MRR, accuracy, F1, BLEU, ROUGE. Используются для оценки качества…
wikionline-метрики
# online-метрики ## Определение Бизнес-метрики на реальном трафике (user satisfaction, CTR, task success rate) или метрики, оцениваемые LLM-судьёй. ## Где…
wikiquality metrics
# quality metrics ## Определение Метрики для мониторинга качества ответов модели в production, используемые в canary deployment и других сценариях развёртывания. ## Где…
wikiContext relevance
…Назовите 3 ключевые метрики.|16. Как вы оцениваете качество генерации в RAG. Назовите 3 ключевые метрики.]] - [[62. Какие метрики вы…
wikiScorers
# Scorers ## Определение Метрики оценки, такие как faithfulness, answer relevance и tool-usage correctness, используемые для измерения качества ответов. ## Где встречается…
wikiLLM evaluation metrics
# LLM evaluation metrics ## Определение Количественные показатели для оценки качества ответов LLM, такие как точность, релевантность, уверенность. Используются для управления привилегиями…
wikiFlagger
…canary-релизов, который отслеживает метрики (например, из Prometheus) и автоматически откатывает новую версию при деградации качества. ## Где встречается - [[385. Как…
wikidownstream metrics
# downstream metrics ## Определение Метрики на целевых задачах, используемые для оценки качества модели; их падение при росте proxy reward сигнализирует о…
wikistructured loss metrics
# structured loss metrics ## Определение Метрики для оценки качества парсинга структурированных элементов документов (заголовков, таблиц, списков) в формате потерь, применяемые при…
answerКак вы проводите A/B тест метрик качества (не бизнес-метрик)?
…В контексте метрик качества мы сравниваем не две версии продукта, а два способа измерения. Метрики качества ([[Вики/quality\|quality]] [[Вики…
wikidrift metrics
# drift metrics ## Определение Метрики для обнаружения изменений в поведении агента со временем. Используются для мониторинга дрейфа качества. ## Где встречается - [[800…
wikiRetrieval metrics
# Retrieval metrics ## Определение Метрики оценки качества поиска (например, recall, precision), обязательные в CI для обнаружения деградации retrieval. ## Где встречается - [[800…
wikitest plan
# test plan ## Определение Документ, описывающий сценарии тестирования, метрики и критерии успеха для агента, используемый для систематической оценки качества. ## Где встречается…
wikievaluator scores
# evaluator scores ## Определение Метрики, такие как faithfulness и answer relevance, используемые для оценки дрейфа модели и качества ответов. ## Где встречается…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить canary deployment промптов
…Критерии приемки (Definition of Done) - [ ] 5% трафика идёт на новую версию промпта (проверено через лог или дашборд). - [ ] Метрики качества собираются…
answerКак вы проектируете canary deployment для LLM модели?
…Офлайн-тесты не гарантируют поведение в продакшене. - Сложность оценки качества: метрики вроде BLEU/ROUGE не всегда коррелируют с пользовательской удовлетворённостью…
wikisacrebleu
# sacrebleu ## Определение Библиотека для расчёта метрики BLEU, применяемая в задачах оценки качества генерации текста, например, для self-BLEU при детекции…
wikiquality score
# quality score ## Определение Численная оценка качества ответа, например, через косинусное сходство с эталоном или другие автоматические метрики. ## Где встречается - [[71…
wikiacceptance threshold
…ухудшение метрики не более 5%), используемый для принятия решения о продвижении модели из staging в production. Обеспечивает контроль качества при…
wikiEvaluator
# Evaluator ## Определение Компонент, запускающий метрики (например faithfulness, accuracy) на собранных логах для регулярной оценки качества модели. ## Где встречается - [[109. Как…
wikiQuality gates
…агента или останавливают пайплайн при их падении, обеспечивая контроль качества. ## Где встречается - [[738. Назовите 12+ слоёв эталонной архитектуры Harness.|738…
answerЧто такое error budget для AI качества и как его считать?
…Какие метрики AI качества использовать для SLO Для AI-систем (особенно [[Вики/RAG\|RAG]] и [[Вики/Agentic RAG\|Agentic RAG…
wikiEval runner
# Eval runner ## Определение Компонент, запускающий сценарии оценки и собирающий метрики для измерения качества агента. ## Где встречается - [[748. Как в Harness…
wikiBLEURT
# BLEURT ## Определение Обученная модель для оценки качества сгенерированного текста. BLEURT предсказывает оценку на основе сравнения с эталоном и лучше коррелирует…
answerКак делать rollback промпта (auto-rollback при деградации метрик)?
…качества в Agentic RAG? | | 802 | Как проводить A/B тестирование промптов? | | 806 | Как управлять промптами в production? | | 807 | Какие метрики…
wikiRAG evaluation
…evaluation) — процесс измерения качества поиска и генерации в RAG-системе, часто с использованием синтетических датасетов. Метрики оценивают точность, релевантность и…
wikiQoS
# QoS ## Определение Метрики качества обслуживания в production LLM, включающие приоритизацию трафика и управление нагрузкой для обеспечения стабильной работы. ## Где встречается…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать canary deployment агента с автооткатом
…Убедитесь, что метрики из агента (latency, error rate) поступают. 5. Реализуйте метрику качества: - Напишите Python-скрипт `quality_metric.py`, который…
wikiRAGAS
# RAGAS ## Определение RAGAS (Retrieval Augmented Generation Assessment) — фреймворк для автоматической оценки RAG-систем, включающий метрики faithfulness, answer relevance и context…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с cost-aware routing
…Ключевой результат Рабочий [[Вики/Prototype\|прототип]] RAG-системы с cost-aware роутингом, метрики затрат и качества собранные за неделю тестирования…
wikiSLI
# SLI ## Определение Измеряемые метрики (latency, faithfulness, availability) уровня обслуживания, используемые для мониторинга выполнения SLO и SLA. ## Где встречается - [[381. Как…
answerКак вы проверяете качество parsing документов (PDF, DOCX) в production?
…Метрики качества Parsing ### 3.1 Точность извлечения текста **Error Rate|Character Error Rate (CER)** — доля неверных символов (вставок, удалений, замен…
answerЧем отличается эвалюация LLM от эвалюации традиционных ML моделей?
…Метрики для LLM (оценка качества генерации) [[Вики/LLM-as-a-judge\|Оценка LLM]] делится на три уровня: ### 4.1 Автоматические…
answerЧто такое «prompt observability» (мониторинг эффективности промптов в production)?
…Расширим. ### 2.1 Метрики качества (Quality Metrics) - **[[Вики/accuracy\|Faithfulness]] ([[Вики/accuracy\|фактологическая точность]])** — насколько ответ [[Вики/GPT-4o\|LLM…
answerКак вы измеряете drift retrieval-качества в RAG (когда документы меняются)?
…Это и есть **drift retrieval-качества**. --- ## 3. Метрики для обнаружения дрейфа Для мониторинга дрейфа используют те же метрики, что и…
answerКак вы измеряете drift retrieval-качества в RAG (когда документы меняются)?
…Как вы измеряете drift retrieval-качества в RAG (когда документы меняются)? ## Краткий тезис [[Вики/drift retrieval-качества\|Drift retrieval-качества…
answerКакие метрики вы мониторите для LLM в production?
…Метрики качества (Quality) — LLM-as-a-Judge Качество ответов в [[Вики/production\|production]] оценивается через автоматизированные метрики (обычно в batch…
wikiHelpfulness / Harmlessness
# Helpfulness / Harmlessness ## Определение Метрики качества и безопасности ответов LLM: полезность (helpfulness) и безвредность (harmlessness); используются в бенчмарках HH-RLHF. ## Где…
wikiPrecision/Recall
# Precision/Recall ## Определение Метрики для оценки качества классификации: precision — доля верно обнаруженных среди всех найденных, recall — доля найденных среди всех…
wikiCold-start
…Как вы делаете load testing для LLM endpoint Какие метрики ключевые|216. Как вы делаете load testing для LLM endpoint…
answerЧто такое Harness Engineering и чем он отличается от Prompt Engineering и MLOps?
…Как тестировать и оценивать Agentic RAG-системы? | | 741 | Какие метрики качества важны для Agentic RAG? | | 742 | Как управлять версиями промптов…
answerКак вы проверяете качество парсинга документов (PDF, DOCX) в production?
…Метрики качества парсинга ### 4.1 Character Error Rate (CER) Формула ``` CER = (S + D + I) / N ``` где: - S — количество заменённых символов…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Агент с human-in-the-loop — эскалация человеку при low confidence
…архитектурные паттерны | | 77 | Оценка качества RAG-систем (метрики ROUGE, BLEU) | | 101 | Графы LangGraph: conditional edges | | 143 | Обработка исключений и fallback…
answerКак вы оцениваете качество после fine-tuning?
…тезис [[Вики/Evaluation\|Оценка качества]] после **[[Вики/SFT\|fine-tuning]]** — это многоуровневый процесс, сочетающий автоматические метрики, **[[Вики/LLM-as-a…
answerКак вы оцениваете cost-effectiveness LLM-пайплайна?
…Как вы проверяете, что новая версия модели не сломала старые кейсы\|140]] | Какие метрики качества LLM-пайплайна вы знаете | | [[141…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Интегрировать тестирование в CI/CD
…Тестовый фреймворк | pytest + pytest-cov | Написание и выполнение тестов | | Метрики качества | RAGAS (или самописные: точность ответа, latency) | Оценка ответов агента…
answerКак проектировать golden dataset для agent evaluation?
…Зачем нужен golden dataset для агентов? - Объективная [[Вики/Evaluation\|оценка качества]] — можно автоматически прогонять агента на датасете и считать метрики…
answerКак вы автоматизируете rollback при деградации качества?
…Как вы делаем disaster recovery с RPO 1 минута\|389]] | Какие метрики качества вы отслеживаете в Agentic RAG? | --- ## Навигация (Obsidian…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Fine-tune embedding под домен
…Ожидается улучшение качества [[Вики/retrieval\|retrieval]] ([[Вики/Recall@k\|Recall@10]]) минимум на 15% относительно [[Вики/baseline\|baseline]] без [[Вики…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить retrieval quality dashboard
…Связанные вопросы из базы знаний | Вопрос | Тема | |--------|------| | 14 | Как настроить Prometheus + Grafana? | | 23 | Основные метрики качества retrieval (hit rate, MRR…