Monte Carlo return
Monte Carlo return
Определение
Monte Carlo return (MC return) — это оценка суммарной награды (return), полученной агентом в течение полного эпизода, вычисленная на основе фактически наблюдаемых наград. В отличие от методов, использующих бутстреппинг (например, TD-обучение), MC return не требует оценки будущих состояний и вычисляется как сумма наград от текущего шага до конца эпизода. Этот подход обеспечивает несмещённую, но высокодисперсионную оценку, что делает его полезным в алгоритмах, где важна точность, а не скорость обновления.