Cohen's Kappa
Cohen's Kappa
Определение
Каппа Коэна — статистическая мера согласия между двумя оценщиками (например, LLM и человеком), учитывающая вероятность случайного совпадения; используется для оценки качества разметки и метрик.
Где встречается
- 132. Как вы калибруете LLM-судью под человеческие оценки
- 138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
- 261. Как вы управляете качеством разметки (label quality) для DPO датасетов
- 331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
- 333. Что такое preference data collection и как минимизировать bias в сравнениях
- 341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
- 349. Как вы проводите AB тест метрик качества (не бизнес-метрик)
- 486. Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.
- 492. Как вы измеряете inter-rater reliability для human evaluation
- 495. Что такое pairwise comparison vs scalar rating Когда что использовать
- 496. Что такое reward correlation и как ее измерять
- 499. Как вы оцениваете alignment модели с человеческими ценностями без gold standard
- 508. Как вы оцениваете faithfulness без ground truth (если нет правильного ответа)
- 516. Как вы управляете качеством разметки (label quality) для DPO датасетов
- 534. Как вы делаете data quality для синтетических датасетов
- 682. Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)
- 686. Как работает synthetic data для RLHF (предпочтения)
- 870. Как работает LLM-as-judge и почему он biased
- 880. Как проектировать golden dataset для agent evaluation
- Практика
- 800+ вопросов
- 146. Реализовать golden dataset для агента
- 270. Настроить RLAIF для генерации предпочтений
- 277. Реализовать LLM-as-Judge с калибровкой