Reward Model

Reward Model

Определение

Reward Model — это модель, обученная предсказывать оценку (reward) для ответов большой языковой модели (LLM) на основе человеческих предпочтений. Она является критическим компонентом пайплайна Reinforcement Learning from Human Feedback (RLHF), где выступает в роли прокси-функции вознаграждения. Качество Reward Model напрямую влияет на степень выравнивания LLM с ценностями и ожиданиями человека.

Где встречается

Навигация