中文翻译暂不可用,显示俄语原文。
Odds Ratio Preference Optimization
Odds Ratio Preference Optimization
Определение
Метод выравнивания, объединяющий supervised fine-tuning и оптимизацию предпочтений в единую функцию потерь с использованием odds ratio для сравнения пар ответов.