中文翻译暂不可用,显示俄语原文。
Credit assignment
Credit assignment
Определение
Проблема определения вклада отдельных действий или токенов в итоговый результат, используемая в обучении с подкреплением (например, PPO) для расчёта advantage.
Где встречается
- 334. Как вы делаете online RL для агентов (self-improvement loops)
- 339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO