DeepSpeed Chat
DeepSpeed Chat
Определение
DeepSpeed Chat — это библиотека, разработанная для эффективного обучения диалоговых моделей с использованием RLHF, включая PPO. В типичной конфигурации PPO она использует четыре модели: актор (LLM), критик (value model), референсную модель и модель вознаграждения. Система оптимизирует управление памятью и вычисления, позволяя обучать большие языковые модели с обратной связью от человека.