Reinforcement Learning for Seq2Seq
Reinforcement Learning for Seq2Seq
Определение
Reinforcement Learning for Seq2Seq — это подход к обучению моделей последовательностей (Seq2Seq), при котором генерация выходной последовательности рассматривается как процесс принятия решений в среде RL. Вместо минимизации ошибки на каждом шаге (как в Teacher Forcing), модель (агент) получает вознаграждение за качество всей сгенерированной последовательности, что позволяет преодолеть проблему Exposure Bias. Типичные алгоритмы включают REINFORCE и Policy Gradient.