Actor-Critic architecture
Actor-Critic architecture
Определение
Архитектура с двумя компонентами: агент-исполнитель генерирует ответ, а агент-критик оценивает его и даёт обратную связь; используется для самоисправления агентов и online reinforcement learning.
Где встречается
- 149. Как спроектировать агента, который может самоисправляться (self-correction)
- 334. Как вы делаете online RL для агентов (self-improvement loops)