Actor-critic

Actor-critic

Определение

Actor-critic — это класс алгоритмов обучения с подкреплением, объединяющий актёра (политику) и критика (функцию ценности). Актёр выбирает действия, а критик оценивает их, обеспечивая стабильное обучение за счёт уменьшения дисперсии градиентов. В контексте RLHF архитектура actor-critic часто используется без буфера опыта, как в методе ReST.

Где встречается

Навигация