Ranking (RLHF)

Ranking (RLHF)

Определение

Ranking (ранжирование) — этап в подходе RLHF, на котором для одного и того же промпта собирается упорядоченный список из K ответов модели, отсортированный по предпочтению человека. Полученный ранговый порядок служит основой для обучения Reward Model, который учится сопоставлять ответам числовые оценки, отражающие их качество. Таким образом, ranking преобразует субъективные предпочтения в формализованный обучающий сигнал.

Где встречается

Навигация