ListMLE

ListMLE

Определение

ListMLE (Listwise Maximum Likelihood Estimation) — это метод обучения ранжированию, основанный на максимизации правдоподобия списка. В контексте RLHF он используется как альтернатива попарному сравнению (Bradley-Terry) для оценки предпочтений, позволяя моделировать вероятности ранжирования нескольких объектов одновременно. ListMLE обобщает модель Plackett-Luce, предполагая, что вероятность наблюдения заданного порядка элементов пропорциональна произведению их "сил" (score).

Где встречается

Навигация