pairwise ranking loss

Определение

Функция потерь для обучения reward model, основанная на разнице скоров chosen и rejected ответов и моделирующая вероятности предпочтений по Брэдли-Терри.

Где встречается

138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически

pairwise ranking loss

pairwise ranking loss

Определение

Где встречается

Навигация