A/B comparison
A/B comparison
Определение
A/B comparison (парное сравнение) — метод сбора предпочтений, при котором асессору предъявляются два ответа модели на один и тот же промпт, и он выбирает лучший или выражает относительное предпочтение. Используется в задачах RLHF для получения бинарных или ранговых сигналов качества, а также для построения наградной модели. Такой подход проще, чем ранжирование множества ответов, но даёт менее детальную информацию.