中文翻译暂不可用,显示俄语原文。
Reinforcement Learning
Reinforcement Learning
Определение
Метод обучения агентов через взаимодействие со средой с получением наград или штрафов; применяется для выравнивания LLM и оптимизации поведения агентов (например, с PPO).
Где встречается
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 723. Как моделировать экономику агентов с ограниченными бюджетами на API вызовы
- 729. Как LLM используются для code generation с формальной верификацией (Dafny, Lean)
- 895. Как оптимизировать траектории агента (trajectory optimization)
- 800+ вопросов