Anthropic HH-RLHF

Определение

Датасет парных предпочтений от Anthropic, используемый для RLHF и оценки выравнивания модели.