English translation is not available yet. Showing Russian content.

Proximal Policy Optimization

Proximal Policy Optimization

Определение

Алгоритм обучения с подкреплением с клиппингом, используемый в RLHF для стабильного обучения.

Где встречается

Навигация