中文翻译暂不可用,显示俄语原文。
Value Network
Value Network
Определение
Сеть, оценивающая ожидаемую накопленную награду (state-value) из состояния. Применяется в алгоритмах RL, таких как PPO, для оценки преимущества действия.
Где встречается
- 334. Как вы делаете online RL для агентов (self-improvement loops)
- 339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO
- 570. Что такое tree search agents (MCTS for LLM) и когда они эффективны
- 800+ вопросов