exploration
exploration
Определение
Поиск новых стратегий в алгоритмах обучения с подкреплением, например MCTS, часто стимулируется entropy bonus в PPO.
Где встречается
- 339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO
- 893. Как работает tree search (MCTS) для LLM агентов