English translation is not available yet. Showing Russian content.
Sample Efficiency
Sample Efficiency
Определение
Способность алгоритма обучаться на ограниченном количестве данных; PPO эффективнее ReST в этом аспекте.
Где встречается
- 334. Как вы делаете online RL для агентов (self-improvement loops)
- 339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO
- 800+ вопросов