Direct Preference Optimization

Direct Preference Optimization

Определение

Метод оптимизации на основе парных предпочтений, альтернатива RLHF, проще и стабильнее, использует implicit reward.

Где встречается

Навигация