Anthropic HH-RLHF
Anthropic HH-RLHF
Определение
Датасет парных предпочтений от Anthropic, используемый для RLHF и оценки выравнивания модели.
Где встречается
- 331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
- 336. Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO