critic agent
critic agent
Определение
Агент, проверяющий вывод основного агента на корректность, полноту и следование инструкциям, и дающий структурированную обратную связь для итеративного улучшения. Также используется как компонент оценки преимущества в PPO.
Где встречается
- 149. Как спроектировать агента, который может самоисправляться (self-correction)
- 328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен
- 800+ вопросов