Fleiss' Kappa
Fleiss' Kappa
Определение
Статистическая метрика согласия для трёх и более аннотаторов, обобщение Cohen’s Kappa. Значение >0.6 считается приемлемым для оценки inter-rater reliability.
Где встречается
- 132. Как вы калибруете LLM-судью под человеческие оценки
- 261. Как вы управляете качеством разметки (label quality) для DPO датасетов
- 333. Что такое preference data collection и как минимизировать bias в сравнениях
- 341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
- 349. Как вы проводите AB тест метрик качества (не бизнес-метрик)
- 492. Как вы измеряете inter-rater reliability для human evaluation
- 496. Что такое reward correlation и как ее измерять
- 499. Как вы оцениваете alignment модели с человеческими ценностями без gold standard
- 516. Как вы управляете качеством разметки (label quality) для DPO датасетов
- 682. Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)
- 880. Как проектировать golden dataset для agent evaluation
- 800+ вопросов
- 77. Реализовать cost-aware routing
- 146. Реализовать golden dataset для агента
- 277. Реализовать LLM-as-Judge с калибровкой