中文翻译暂不可用,显示俄语原文。
On-policy
On-policy
Определение
Парадигма обучения, при которой данные генерируются текущей политикой (LLM) на каждой итерации PPO.
中文翻译暂不可用,显示俄语原文。
Парадигма обучения, при которой данные генерируются текущей политикой (LLM) на каждой итерации PPO.