Iterated Training

Iterated Training

Определение

Циклический процесс обучения: обучение модели вознаграждения, обучение политики с PPO, сбор новых предпочтений, дообучение модели вознаграждения. Применяется для предотвращения reward hacking.

Где встречается

Навигация