Monte Carlo return

Определение

Monte Carlo return (MC return) — это оценка суммарной награды (return), полученной агентом в течение полного эпизода, вычисленная на основе фактически наблюдаемых наград. В отличие от методов, использующих бутстреппинг (например, TD-обучение), MC return не требует оценки будущих состояний и вычисляется как сумма наград от текущего шага до конца эпизода. Этот подход обеспечивает несмещённую, но высокодисперсионную оценку, что делает его полезным в алгоритмах, где важна точность, а не скорость обновления.

Где встречается

986. Как работает PPO (Proximal Policy Optimization) для LLM?

Monte Carlo return

Monte Carlo return

Определение

Где встречается

Навигация