English translation is not available yet. Showing Russian content.

Direct Preference Optimization

Direct Preference Optimization

Определение

Метод оптимизации на основе парных предпочтений, альтернатива RLHF, проще и стабильнее, использует implicit reward.

Где встречается

Навигация