preference data collection

Определение

Процесс сбора человеческих предпочтений в виде триплетов (prompt, chosen, rejected) для обучения reward model или DPO. Ключевой этап RLHF, подверженный субъективности и bias.

Где встречается

36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
333. Что такое preference data collection и как минимизировать bias в сравнениях
686. Как работает synthetic data для RLHF (предпочтения)
800+ вопросов
270. Настроить RLAIF для генерации предпочтений

preference data collection

preference data collection

Определение

Где встречается

Навигация