Critic model
Critic model
Определение
Critic model (модель критика) — это компонент в алгоритме PPO (Proximal Policy Optimization), который оценивает ожидаемую сумму вознаграждений (value) для заданного состояния. В контексте обучения языковых моделей (LLM) critic часто называют Value model; он помогает вычислять преимущество (advantage) действия актора, что позволяет стабильно обновлять политику.