English translation is not available yet. Showing Russian content.
Credit assignment
Credit assignment
Определение
Проблема определения вклада отдельных действий или токенов в итоговый результат, используемая в обучении с подкреплением (например, PPO) для расчёта advantage.
Где встречается
- 334. Как вы делаете online RL для агентов (self-improvement loops)
- 339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO