Reward Modelling

Reward Modelling

Определение

Reward Modelling (моделирование вознаграждения) — этап в RLHF, на котором обучается модель, предсказывающая скалярную оценку (reward) для ответов языковой модели на основе человеческих предпочтений. Эта модель-вознаграждение затем используется как функция награды при обучении с подкреплением для выравнивания модели. Метод поддерживается фреймворком LLaMA-Factory.

Где встречается

Навигация