Оглавление
Вопросы
Практика
Вики
Материалы сообщества
Тесты
Поиск

✈Telegram @ai_varo

…

Оглавление/Вики/Cohen's Kappa

Cohen's Kappa

Cohen's Kappa

Определение

Каппа Коэна — статистическая мера согласия между двумя оценщиками (например, LLM и человеком), учитывающая вероятность случайного совпадения; используется для оценки качества разметки и метрик.

Где встречается

132. Как вы калибруете LLM-судью под человеческие оценки
138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
261. Как вы управляете качеством разметки (label quality) для DPO датасетов
331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
333. Что такое preference data collection и как минимизировать bias в сравнениях
341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
349. Как вы проводите AB тест метрик качества (не бизнес-метрик)
486. Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.
492. Как вы измеряете inter-rater reliability для human evaluation
495. Что такое pairwise comparison vs scalar rating Когда что использовать
496. Что такое reward correlation и как ее измерять
499. Как вы оцениваете alignment модели с человеческими ценностями без gold standard
508. Как вы оцениваете faithfulness без ground truth (если нет правильного ответа)
516. Как вы управляете качеством разметки (label quality) для DPO датасетов
534. Как вы делаете data quality для синтетических датасетов
682. Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)
686. Как работает synthetic data для RLHF (предпочтения)
870. Как работает LLM-as-judge и почему он biased
880. Как проектировать golden dataset для agent evaluation
Практика
800+ вопросов
146. Реализовать golden dataset для агента
270. Настроить RLAIF для генерации предпочтений
277. Реализовать LLM-as-Judge с калибровкой

Навигация

Индекс терминов
Индекс разборов
Оглавление