Anthropic/hh-rlhf
Anthropic/hh-rlhf
Определение
Anthropic/hh-rlhf — это датасет, созданный компанией Anthropic, содержащий пары ответов с реальными человеческими предпочтениями. Он используется для обучения моделей вознаграждения (Reward Model) в рамках RLHF (Reinforcement Learning from Human Feedback). Датасет включает диалоги, где один ответ помечен как предпочтительный (chosen), а другой — как отвергнутый (rejected).