中文翻译暂不可用,显示俄语原文。

Best-of-N

Best-of-N

Определение

Best-of-N (также известен как rejection sampling) — техника, используемая в обучении с подкреплением на основе человеческой обратной связи (RLHF). Из модели генерируется N вариантов ответов, после чего Reward Model выбирает ответ с наивысшей оценкой. Это позволяет повысить качество генерации за счет перебора множества кандидатов.

Где встречается

Навигация