Q-value
Q-value
Определение
В обучении с подкреплением — математическое ожидание суммарной будущей награды для действия в данном состоянии. Используется в алгоритмах Q-обучения (например, MCTS).
В обучении с подкреплением — математическое ожидание суммарной будущей награды для действия в данном состоянии. Используется в алгоритмах Q-обучения (например, MCTS).