reward model

reward model

Определение

Компонент RLHF, обучаемый на ранжированных данных для оценки качества ответов.

Где встречается

Навигация