Reinforcement Learning

Определение

Метод обучения агентов через взаимодействие со средой с получением наград или штрафов; применяется для выравнивания LLM и оптимизации поведения агентов (например, с PPO).

Где встречается

485. Как вы дебажите training instability (loss spikes, divergence)
723. Как моделировать экономику агентов с ограниченными бюджетами на API вызовы
729. Как LLM используются для code generation с формальной верификацией (Dafny, Lean)
895. Как оптимизировать траектории агента (trajectory optimization)
800+ вопросов

Reinforcement Learning

Reinforcement Learning

Определение

Где встречается

Навигация