Bradley–Terry model

Bradley–Terry model

Определение

Модель Брэдли-Терри — это вероятностная модель для парных сравнений, которая оценивает силу (score) каждого объекта на основе результатов их попарных состязаний. Она предполагает, что вероятность того, что объект i превзойдет объект j, равна отношению их сил: P(i > j) = s_i / (s_i + s_j). Модель широко используется для ранжирования элементов, например, в спортивных турнирах или при оценке качества ответов языковых моделей.

Где встречается

    1. Как собирать preference data для RLHF? (A/B сравнение ответов, ranking, Elo score)

Навигация