…

winning response

Определение

Ответ, который выбирается как предпочтительный в паре сравнения при обучении с предпочтениями (например, в DPO).