DeepSpeed Chat

DeepSpeed Chat

Определение

DeepSpeed Chat — это библиотека, разработанная для эффективного обучения диалоговых моделей с использованием RLHF, включая PPO. В типичной конфигурации PPO она использует четыре модели: актор (LLM), критик (value model), референсную модель и модель вознаграждения. Система оптимизирует управление памятью и вычисления, позволяя обучать большие языковые модели с обратной связью от человека.

Где встречается

Навигация