Pairwise (RLHF)
Pairwise (RLHF)
Определение
Pairwise (попарное сравнение) — метод сбора данных для обучения Reward Model в RLHF, при котором для каждого промпта собирается ровно одна пара ответов: chosen (предпочтительный) и rejected (отвергнутый). Модель обучается предсказывать, какой из двух ответов лучше, на основе бинарного предпочтения.