Bradley-Terry model

Определение

Bradley-Terry model — статистическая модель парных сравнений, которая оценивает вероятность предпочтения одного объекта другому через логистическую функцию разности их рейтингов. Применяется в RLHF для обучения reward model и в DPO для вывода функции потерь.

Где встречается

36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
329. Как обучается reward model для RLHF и как избегать reward hacking
333. Что такое preference data collection и как минимизировать bias в сравнениях
335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)
336. Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO
506. Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации

Bradley-Terry model

Bradley-Terry model

Определение

Где встречается

Навигация