InstructGPT
InstructGPT
Определение
InstructGPT — это семейство языковых моделей OpenAI, обученных с использованием RLHF (Reinforcement Learning from Human Feedback) для следования инструкциям пользователя. В оригинальной версии применялся адаптивный KL-штраф в алгоритме PPO: коэффициент KL изменялся так, чтобы фактическое значение KL-дивергенции между новой и исходной моделью оставалось в окрестности целевого значения. Эта модель стала основой для ChatGPT.
Где встречается
- 981. Что такое RLHF (SFT, Rew)
- 982. Для чего нужен этап Supervised Fine-Tuning (SFT) перед RLHF? Что будет, если его пропустить?
- B сравнение ответов, ranking, Elo score)
- 987. Что такое KL penalty в PPO? Зачем ограничивать новую модель от старой?