Reward shaping
Reward shaping
Определение
Метод модификации функции награды путем добавления промежуточных наград для облегчения обучения в многошаговых задачах.
Где встречается
- 334. Как вы делаете online RL для агентов (self-improvement loops)
- 62. Настроить MCTS для математических задач
- 240. Агент с tree search (MCTS)