Best-of-N

Best-of-N

Определение

Best-of-N (также известен как rejection sampling) — техника, используемая в обучении с подкреплением на основе человеческой обратной связи (RLHF). Из модели генерируется N вариантов ответов, после чего Reward Model выбирает ответ с наивысшей оценкой. Это позволяет повысить качество генерации за счет перебора множества кандидатов.

Где встречается

Навигация