RL update

Определение

Шаг оптимизации, при котором параметры политики агента корректируются на основе собранных траекторий в обучении с подкреплением.