Iterated TrainingIterated Training Определение Циклический процесс обучения: обучение модели вознаграждения, обучение политики с PPO, сбор новых предпочтений, дообучение модели вознаграждения. Применяется для предотвращения reward hacking. Где встречается 329. Как обучается reward model для RLHF и как избегать reward hacking Навигация Индекс терминов Индекс разборов Оглавление
Iterated Training Определение Циклический процесс обучения: обучение модели вознаграждения, обучение политики с PPO, сбор новых предпочтений, дообучение модели вознаграждения. Применяется для предотвращения reward hacking. Где встречается 329. Как обучается reward model для RLHF и как избегать reward hacking Навигация Индекс терминов Индекс разборов Оглавление