ListMLE
ListMLE
Определение
ListMLE (Listwise Maximum Likelihood Estimation) — это метод обучения ранжированию, основанный на максимизации правдоподобия списка. В контексте RLHF он используется как альтернатива попарному сравнению (Bradley-Terry) для оценки предпочтений, позволяя моделировать вероятности ранжирования нескольких объектов одновременно. ListMLE обобщает модель Plackett-Luce, предполагая, что вероятность наблюдения заданного порядка элементов пропорциональна произведению их "сил" (score).
Где встречается
- 984. Как обучается Reward Model (RM)? Вход: (prompt, answer_chosen, answer_rejected), выход: скаляр.