DPOTrainer
DPOTrainer
Определение
Компонент библиотеки TRL для обучения модели методом DPO. Требует задания model, ref_model и dataset с предпочтениями.
Компонент библиотеки TRL для обучения модели методом DPO. Требует задания model, ref_model и dataset с предпочтениями.