Anthropic/hh-rlhf

Anthropic/hh-rlhf

Определение

Anthropic/hh-rlhf — это датасет, созданный компанией Anthropic, содержащий пары ответов с реальными человеческими предпочтениями. Он используется для обучения моделей вознаграждения (Reward Model) в рамках RLHF (Reinforcement Learning from Human Feedback). Датасет включает диалоги, где один ответ помечен как предпочтительный (chosen), а другой — как отвергнутый (rejected).

Где встречается

Навигация