中文翻译暂不可用,显示俄语原文。
Best-of-N
Best-of-N
Определение
Best-of-N (также известен как rejection sampling) — техника, используемая в обучении с подкреплением на основе человеческой обратной связи (RLHF). Из модели генерируется N вариантов ответов, после чего Reward Model выбирает ответ с наивысшей оценкой. Это позволяет повысить качество генерации за счет перебора множества кандидатов.