On-policy

Определение

Парадигма обучения, при которой данные генерируются текущей политикой (LLM) на каждой итерации PPO.