中文翻译暂不可用,显示俄语原文。

Proximal Policy Optimization

Proximal Policy Optimization

Определение

Алгоритм обучения с подкреплением с клиппингом, используемый в RLHF для стабильного обучения.

Где встречается

Навигация