Plackett-Luce model
Plackett-Luce model
Определение
Модель Плэкетта-Люса (Plackett-Luce) — это вероятностная модель ранжирования, обобщающая модель Брэдли-Терри на случай более чем двух элементов. В контексте RLHF она используется для оценки распределения предпочтений между несколькими ответами (например, при ранжировании списка кандидатов). Вероятность появления конкретного порядка элементов пропорциональна произведению весов (score) каждого элемента, нормализованных на каждом шаге выбора.