Ranking (RLHF)
Ranking (RLHF)
Определение
Ranking (ранжирование) — этап в подходе RLHF, на котором для одного и того же промпта собирается упорядоченный список из K ответов модели, отсортированный по предпочтению человека. Полученный ранговый порядок служит основой для обучения Reward Model, который учится сопоставлять ответам числовые оценки, отражающие их качество. Таким образом, ranking преобразует субъективные предпочтения в формализованный обучающий сигнал.
Где встречается
- 984. Как обучается Reward Model (RM)? Вход: (prompt, answer_chosen, answer_rejected), выход: скаляр.