SPIN

Определение

Self-Play Fine-Tuning — метод, в котором модель генерирует ответы, затем выступает в роли критика, выбирая лучший из пары для улучшения качества.