A/B comparison

A/B comparison

Определение

A/B comparison (парное сравнение) — метод сбора предпочтений, при котором асессору предъявляются два ответа модели на один и тот же промпт, и он выбирает лучший или выражает относительное предпочтение. Используется в задачах RLHF для получения бинарных или ранговых сигналов качества, а также для построения наградной модели. Такой подход проще, чем ранжирование множества ответов, но даёт менее детальную информацию.

Где встречается

    1. Как собирать preference data для RLHF? (A/B сравнение ответов, ranking, Elo score)

Навигация