中文翻译暂不可用,显示俄语原文。
PPOTrainer
PPOTrainer
Определение
Компонент библиотеки TRL (Transformers Reinforcement Learning) для обучения с подкреплением методом PPO, применяемый, например, в RLHF для детекции reward hacking.
中文翻译暂不可用,显示俄语原文。
Компонент библиотеки TRL (Transformers Reinforcement Learning) для обучения с подкреплением методом PPO, применяемый, например, в RLHF для детекции reward hacking.