中文翻译暂不可用,显示俄语原文。
self-play
self-play
Определение
Метод обучения, при котором модель генерирует и оценивает собственные ответы, используя их как обучающие данные (например, в RLAIF или ReST).
Где встречается
- 330. Что такое RLAIF (RL from AI Feedback) и как он масштабируется
- 339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO
- 688. Что такое synthetic data collapse (когда синтетические данные деградируют со временем)