Improve
Improve
Определение
Improve — этап в итеративных алгоритмах обучения с подкреплением (RLHF, ReST), на котором модель дообучается на собственных генерациях, получивших высокую оценку (награду). Цель шага — максимизировать вероятность таких последовательностей, тем самым улучшая политику модели. Обычно Improve чередуется с шагом Grow (генерация новых данных) или аналогичным этапом сбора примеров.