English translation is not available yet. Showing Russian content.
Policy
Policy
Определение
Стратегия (нейросеть или правила), отображающая состояния в действия; используется в RL (PPO, DPO) как генератор действий, а также как паттерн проектирования для выбора алгоритма.
Где встречается
- 85. Как вы обрабатываете смену форматов документов (legacy + новые форматы)
- 334. Как вы делаете online RL для агентов (self-improvement loops)
- 335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)
- 339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO
- 570. Что такое tree search agents (MCTS for LLM) и когда они эффективны