中文翻译暂不可用,显示俄语原文。
RL update
RL update
Определение
Шаг оптимизации, при котором параметры политики агента корректируются на основе собранных траекторий в обучении с подкреплением.
中文翻译暂不可用,显示俄语原文。
Шаг оптимизации, при котором параметры политики агента корректируются на основе собранных траекторий в обучении с подкреплением.