Inter-annotator agreement

Определение

Мера согласованности между разными аннотаторами при разметке одних и тех же данных, измеряемая через Cohen's kappa или Fleiss' kappa. Используется для контроля качества разметки, особенно в DPO датасетах и golden dataset.

Где встречается

329. Как обучается reward model для RLHF и как избегать reward hacking
333. Что такое preference data collection и как минимизировать bias в сравнениях
341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
349. Как вы проводите AB тест метрик качества (не бизнес-метрик)
495. Что такое pairwise comparison vs scalar rating Когда что использовать
496. Что такое reward correlation и как ее измерять
499. Как вы оцениваете alignment модели с человеческими ценностями без gold standard
516. Как вы управляете качеством разметки (label quality) для DPO датасетов
534. Как вы делаете data quality для синтетических датасетов
682. Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)
880. Как проектировать golden dataset для agent evaluation
Практика
800+ вопросов
146. Реализовать golden dataset для агента
270. Настроить RLAIF для генерации предпочтений

Inter-annotator agreement

Inter-annotator agreement

Определение

Где встречается

Навигация