Actor
Actor
Определение
В контексте обучения с подкреплением (RL) для LLM, Actor (также называемый LLM policy) — это сама языковая модель, которая выступает в роли политики, генерирующей ответы (действия) на заданные промпты (состояния). В алгоритме PPO Actor оптимизируется с помощью surrogate loss, включающего clipping и KL-штраф, чтобы ограничить отклонение от предыдущей версии модели. Таким образом, Actor является ключевым компонентом, который обновляется в процессе RL-дообучения.