Bradley-Terry model
Bradley-Terry model
Определение
Bradley-Terry model — статистическая модель парных сравнений, которая оценивает вероятность предпочтения одного объекта другому через логистическую функцию разности их рейтингов. Применяется в RLHF для обучения reward model и в DPO для вывода функции потерь.
Где встречается
- 36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
- 329. Как обучается reward model для RLHF и как избегать reward hacking
- 333. Что такое preference data collection и как минимизировать bias в сравнениях
- 335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)
- 336. Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO
- 506. Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации