InstructGPT

Определение

InstructGPT — это семейство языковых моделей OpenAI, обученных с использованием RLHF (Reinforcement Learning from Human Feedback) для следования инструкциям пользователя. В оригинальной версии применялся адаптивный KL-штраф в алгоритме PPO: коэффициент KL изменялся так, чтобы фактическое значение KL-дивергенции между новой и исходной моделью оставалось в окрестности целевого значения. Эта модель стала основой для ChatGPT.

Где встречается

981. Что такое RLHF (SFT, Rew)
982. Для чего нужен этап Supervised Fine-Tuning (SFT) перед RLHF? Что будет, если его пропустить?
B сравнение ответов, ranking, Elo score)
987. Что такое KL penalty в PPO? Зачем ограничивать новую модель от старой?

InstructGPT

InstructGPT

Определение

Где встречается

Навигация