Supervised Fine-Tuning
Supervised Fine-Tuning
Определение
Supervised Fine-Tuning (контролируемое дообучение) — это этап дообучения предварительно обученной языковой модели на размеченных данных, состоящих из пар «инструкция — ожидаемый ответ». На этом этапе модель учится следовать инструкциям и генерировать ответы в заданном формате, что критически важно для последующего применения в диалоговых системах. SFT является обязательным промежуточным шагом между базовым претренингом и RLHF, так как без него модель не способна корректно воспринимать инструкции и осваивать целевую манеру общения.