…

Simple Preference Optimization

Simple Preference Optimization

Определение

Метод alignment, использующий среднюю длину ответа для регуляризации.

Где встречается

36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF

Навигация