中文翻译暂不可用,显示俄语原文。

Odds Ratio Preference Optimization

Odds Ratio Preference Optimization

Определение

Метод выравнивания, объединяющий supervised fine-tuning и оптимизацию предпочтений в единую функцию потерь с использованием odds ratio для сравнения пар ответов.

Где встречается

Навигация