Reinforcement Learning for Seq2Seq

Определение

Reinforcement Learning for Seq2Seq — это подход к обучению моделей последовательностей (Seq2Seq), при котором генерация выходной последовательности рассматривается как процесс принятия решений в среде RL. Вместо минимизации ошибки на каждом шаге (как в Teacher Forcing), модель (агент) получает вознаграждение за качество всей сгенерированной последовательности, что позволяет преодолеть проблему Exposure Bias. Типичные алгоритмы включают REINFORCE и Policy Gradient.

Где встречается

933. Что такое Teacher Forcing при обучении декодера? В чем проблема Exposure Bias?

Reinforcement Learning for Seq2Seq

Reinforcement Learning for Seq2Seq

Определение

Где встречается

Навигация