English translation is not available yet. Showing Russian content.
REINFORCE
REINFORCE
Определение
Базовый алгоритм градиента политики для обучения с подкреплением, используемый для дискретных токенов, например в VSD для обновления draft-модели.
Где встречается
- 160. Что такое Variational Speculative Decoding (VSD) и чем он революционен
- 334. Как вы делаете online RL для агентов (self-improvement loops)
- 895. Как оптимизировать траектории агента (trajectory optimization)