Policy

Определение

Стратегия (нейросеть или правила), отображающая состояния в действия; используется в RL (PPO, DPO) как генератор действий, а также как паттерн проектирования для выбора алгоритма.

Где встречается

85. Как вы обрабатываете смену форматов документов (legacy + новые форматы)
334. Как вы делаете online RL для агентов (self-improvement loops)
335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)
339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO
570. Что такое tree search agents (MCTS for LLM) и когда они эффективны

Policy

Policy

Определение

Где встречается

Навигация