Anthropic/hh-rlhf

Определение

Anthropic/hh-rlhf — это датасет, созданный компанией Anthropic, содержащий пары ответов с реальными человеческими предпочтениями. Он используется для обучения моделей вознаграждения (Reward Model) в рамках RLHF (Reinforcement Learning from Human Feedback). Датасет включает диалоги, где один ответ помечен как предпочтительный (chosen), а другой — как отвергнутый (rejected).

Где встречается

984. Как обучается Reward Model (RM)? Вход: (prompt, answer_chosen, answer_rejected),

Anthropic/hh-rlhf

Anthropic/hh-rlhf

Определение

Где встречается

Навигация