中文翻译暂不可用,显示俄语原文。
Kahneman-Tversky Optimization
Kahneman-Tversky Optimization
Определение
Метод alignment, использующий только хорошие или плохие ответы без парных предпочтений, альтернатива DPO, основанный на теории перспектив.
Где встречается
- 36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
- 800+ вопросов
- 65. Реализовать process reward model