English translation is not available yet. Showing Russian content.
On-policy
On-policy
Определение
Парадигма обучения, при которой данные генерируются текущей политикой (LLM) на каждой итерации PPO.
English translation is not available yet. Showing Russian content.
Парадигма обучения, при которой данные генерируются текущей политикой (LLM) на каждой итерации PPO.