中文翻译暂不可用,显示俄语原文。

reward model

reward model

Определение

Компонент RLHF, обучаемый на ранжированных данных для оценки качества ответов.

Где встречается

Навигация