REINFORCE

Определение

Базовый алгоритм градиента политики для обучения с подкреплением, используемый для дискретных токенов, например в VSD для обновления draft-модели.