self-play

Определение

Метод обучения, при котором модель генерирует и оценивает собственные ответы, используя их как обучающие данные (например, в RLAIF или ReST).