Bradley-Terry model

Bradley-Terry model

Определение

Bradley-Terry model — статистическая модель парных сравнений, которая оценивает вероятность предпочтения одного объекта другому через логистическую функцию разности их рейтингов. Применяется в RLHF для обучения reward model и в DPO для вывода функции потерь.

Где встречается

Навигация