English translation is not available yet. Showing Russian content.
Odds Ratio Preference Optimization
Odds Ratio Preference Optimization
Определение
Метод выравнивания, объединяющий supervised fine-tuning и оптимизацию предпочтений в единую функцию потерь с использованием odds ratio для сравнения пар ответов.