Inter-annotator agreement
Inter-annotator agreement
Определение
Мера согласованности между разными аннотаторами при разметке одних и тех же данных, измеряемая через Cohen's kappa или Fleiss' kappa. Используется для контроля качества разметки, особенно в DPO датасетах и golden dataset.
Где встречается
- 329. Как обучается reward model для RLHF и как избегать reward hacking
- 333. Что такое preference data collection и как минимизировать bias в сравнениях
- 341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
- 349. Как вы проводите AB тест метрик качества (не бизнес-метрик)
- 495. Что такое pairwise comparison vs scalar rating Когда что использовать
- 496. Что такое reward correlation и как ее измерять
- 499. Как вы оцениваете alignment модели с человеческими ценностями без gold standard
- 516. Как вы управляете качеством разметки (label quality) для DPO датасетов
- 534. Как вы делаете data quality для синтетических датасетов
- 682. Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)
- 880. Как проектировать golden dataset для agent evaluation
- Практика
- 800+ вопросов
- 146. Реализовать golden dataset для агента
- 270. Настроить RLAIF для генерации предпочтений