exploration-exploitation tradeoff
exploration-exploitation tradeoff
Определение
Exploration-exploitation tradeoff (дилемма исследования-использования) — это фундаментальная проблема в обучении с подкреплением, связанная с выбором между исследованием новых действий (exploration) для получения информации и использованием уже известных оптимальных действий (exploitation) для максимизации вознаграждения. Слишком большой акцент на эксплуатации может привести к застреванию в локальном оптимуме, в то время как избыточное исследование замедляет обучение. В контексте алгоритмов типа PPO с KL-штрафом значение β регулирует этот баланс: высокое β подавляет исследование, замораживая политику.