Kahneman-Tversky Optimization

Определение

Метод alignment, использующий только хорошие или плохие ответы без парных предпочтений, альтернатива DPO, основанный на теории перспектив.