Odds Ratio Preference Optimization
Odds Ratio Preference Optimization
Определение
Метод выравнивания, объединяющий supervised fine-tuning и оптимизацию предпочтений в единую функцию потерь с использованием odds ratio для сравнения пар ответов.
Метод выравнивания, объединяющий supervised fine-tuning и оптимизацию предпочтений в единую функцию потерь с использованием odds ratio для сравнения пар ответов.