Поиск
- wikiinter-rater reliability
# inter-rater reliability ## Определение Метрика согласованности между оценщиками при human evaluation, важная для получения надёжных качественных метрик при A/B…
- wikiWeighted Kappa
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] - [[277…
- wikiGwet's AC1
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] ## Навигация…
- wikiPercent agreement
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] ## Навигация…
- wikiKrippendorff's Alpha
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] - [[800…
- wikiFleiss' Kappa
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] - [[496…
- wikiInter-annotator agreement
# Inter-annotator agreement ## Определение Мера согласованности между разными аннотаторами при разметке одних и тех же данных, измеряемая через Cohen's…
- wikiConsensus
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] - [[493…
- answerКак вы измеряете inter-rater reliability для human evaluation?
…Как вы измеряете inter-rater reliability для human evaluation? ## Краткий тезис **reliability|Inter-rater reliability (IRR)** — это статистическая мера согласованности…
- wikiCohen's Kappa
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] - [[495…
- wikiметаданные
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] - [[520…
- answerЧто такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)?
…Как вы измеряете inter-rater reliability для human evaluation\|492]] | Декомпозиция Brier score (Murphy decomposition) | --- ## 12. Навигация (Obsidian) - Предыдущий: [[486…
- wikihallucination
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] - [[505…
- wikiReinforcement Learning from Human Feedback
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] - [[493…
- wikihuman-in-the-loop
…Как вы измеряете inter-rater reliability для human evaluation|492. Как вы измеряете inter-rater reliability для human evaluation]] - [[493…
- answerКак вы A/B тестируете две версии промпта в production?
…качественных метрик важно использовать [[Вики/inter-rater reliability\|inter-rater reliability]] ([[Вики/inter-rater reliability\|согласованность между оценщиками]]), если применяется…
- answerЧто такое statistical power evaluation и как определять размер выборки для A/B теста?
…Как вы измеряете inter-rater reliability для human evaluation\|492]] | Метрики для оценки RAG (faithfulness, relevance) | | [[493. Что такое Positional…
- answerЧто такое Positional bias в LLM-as-Judge и как его исправить?
…Как вы измеряете inter-rater reliability для human evaluation\|492]] | Bias в LLM-судьях: обзор (lengh bias, self-enhancement) | | [[494…
- answerЧто такое pairwise comparison vs scalar rating? Когда что использовать?
…Как вы измеряете inter-rater reliability для human evaluation\|492]] | Как собирать human feedback в продакшн-системе? | | [[493. Что такое…
- answerКак вы проектируете бенчмарк для нового домена (медицина, юриспруденция)?
…Как вы измеряете inter-rater reliability для human evaluation\|492]] | Как проводить human evaluation для RAG? | | [[486. Почему LLM-as…
- answerКак вы оцениваете alignment модели с человеческими ценностями без gold standard?
…with human judges | Согласие модели с группой экспертов (inter-rater reliability) | Cohen’s kappa, Fleiss’ kappa | | [[Вики/consistency\|Consistency]] | Стабильность…
- answerЧто такое benchmark contamination и как ее детектировать?
…Как вы измеряете inter-rater reliability для human evaluation\|492]] | Как детектировать переобучение на тестовых данных? | | [[493. Что такое Positional…
- answerЧто такое reward hacking в RLHF и как его детектировать?
…Как вы измеряете inter-rater reliability для human evaluation\|492]] | Проблема распределения (distribution shift) в RLHF | | [[493. Что такое Positional…
- answerКак вы проводите A/B тест метрик качества (не бизнес-метрик)?
…тесты, bootstrap | Гибкость | Требует кода | | **R (irr package)** | Inter-rater reliability | Специализированные функции | Не Python | | [[Вики/DeepEval\|DeepEval]] | Оценка RAG…
- wikiИндекс терминов
…inter-judge agreement|inter-judge agreement]] - [[Вики/inter-rater reliability|inter-rater reliability]] - [[Вики/inter-user variability|inter-user variability…
- indexИндекс разборов
…Как вы измеряете inter-rater reliability для human evaluation\|492. Как вы измеряете inter-rater reliability для human evaluation?]] - [[493…
- indexОглавление
…Как вы измеряете inter-rater reliability для human evaluation\|492. Как вы измеряете inter-rater reliability для human evaluatio]] - [[Вопросы…
- question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Как вы измеряете inter-rater reliability для human evaluation?** > _Ответ:_ > > - **Cohen's Kappa** (для двух аннотаторов): учитывает agreement по случайности…