中文翻译暂不可用,显示俄语原文。
REINFORCE
REINFORCE
Определение
Базовый алгоритм градиента политики для обучения с подкреплением, используемый для дискретных токенов, например в VSD для обновления draft-модели.
Где встречается
- 160. Что такое Variational Speculative Decoding (VSD) и чем он революционен
- 334. Как вы делаете online RL для агентов (self-improvement loops)
- 895. Как оптимизировать траектории агента (trajectory optimization)