preference data collection
preference data collection
Определение
Процесс сбора человеческих предпочтений в виде триплетов (prompt, chosen, rejected) для обучения reward model или DPO. Ключевой этап RLHF, подверженный субъективности и bias.
Где встречается
- 36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
- 333. Что такое preference data collection и как минимизировать bias в сравнениях
- 686. Как работает synthetic data для RLHF (предпочтения)
- 800+ вопросов
- 270. Настроить RLAIF для генерации предпочтений