Odds Ratio Preference Optimization

Odds Ratio Preference Optimization

Определение

Метод выравнивания, объединяющий supervised fine-tuning и оптимизацию предпочтений в единую функцию потерь с использованием odds ratio для сравнения пар ответов.

Где встречается

Навигация