DeepSpeed-MoE
DeepSpeed-MoE
Определение
Расширение DeepSpeed от Microsoft для expert parallelism и других оптимизаций MoE-моделей, как для обучения, так и для инференса.
Где встречается
- 849. Что такое expert parallelism для MoE моделей (Mixtral)
- 800+ вопросов
- 215. Настроить expert parallelism для Mixtral