RL update
RL update
Определение
Шаг оптимизации, при котором параметры политики агента корректируются на основе собранных траекторий в обучении с подкреплением.
Шаг оптимизации, при котором параметры политики агента корректируются на основе собранных траекторий в обучении с подкреплением.