Best_of_N

Best_of_N

Определение

Best-of-N (выбор лучшего из N) — техника декодирования, при которой из N независимо сгенерированных моделью ответов выбирается один с наивысшей оценкой от реворд-модели. Применяется в RLHF для улучшения качества генераций, например, при Rejection Sampling. Калибровка реворд-модели критична для корректного ранжирования в этом методе.

Где встречается

Навигация