English translation is not available yet. Showing Russian content.

reward model

reward model

Определение

Компонент RLHF, обучаемый на ранжированных данных для оценки качества ответов.

Где встречается

Навигация