Actor-critic
Actor-critic
Определение
Actor-critic — это класс алгоритмов обучения с подкреплением, объединяющий актёра (политику) и критика (функцию ценности). Актёр выбирает действия, а критик оценивает их, обеспечивая стабильное обучение за счёт уменьшения дисперсии градиентов. В контексте RLHF архитектура actor-critic часто используется без буфера опыта, как в методе ReST.