Preference tuning
Preference tuning
Определение
Метод обучения модели на человеческих предпочтениях, часто с использованием рандомизированного порядка для избежания bias.
Метод обучения модели на человеческих предпочтениях, часто с использованием рандомизированного порядка для избежания bias.