Offline preference optimization
Offline preference optimization
Определение
Группа методов выравнивания моделей, которые оптимизируют предпочтения на фиксированных датасетах без генерации новых данных в реальном времени.
Группа методов выравнивания моделей, которые оптимизируют предпочтения на фиксированных датасетах без генерации новых данных в реальном времени.