pairwise ranking loss
pairwise ranking loss
Определение
Функция потерь для обучения reward model, основанная на разнице скоров chosen и rejected ответов и моделирующая вероятности предпочтений по Брэдли-Терри.
Где встречается
- 138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
- 326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически