中文翻译暂不可用,显示俄语原文。

REINFORCE

REINFORCE

Определение

Базовый алгоритм градиента политики для обучения с подкреплением, используемый для дискретных токенов, например в VSD для обновления draft-модели.

Где встречается

Навигация