Fleiss' Kappa

Определение

Статистическая метрика согласия для трёх и более аннотаторов, обобщение Cohen’s Kappa. Значение >0.6 считается приемлемым для оценки inter-rater reliability.

Где встречается

132. Как вы калибруете LLM-судью под человеческие оценки
261. Как вы управляете качеством разметки (label quality) для DPO датасетов
333. Что такое preference data collection и как минимизировать bias в сравнениях
341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
349. Как вы проводите AB тест метрик качества (не бизнес-метрик)
492. Как вы измеряете inter-rater reliability для human evaluation
496. Что такое reward correlation и как ее измерять
499. Как вы оцениваете alignment модели с человеческими ценностями без gold standard
516. Как вы управляете качеством разметки (label quality) для DPO датасетов
682. Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)
880. Как проектировать golden dataset для agent evaluation
800+ вопросов
77. Реализовать cost-aware routing
146. Реализовать golden dataset для агента
277. Реализовать LLM-as-Judge с калибровкой

Fleiss' Kappa

Fleiss' Kappa

Определение

Где встречается

Навигация