DeepSeek-MoE
DeepSeek-MoE
Определение
Mixture of Experts модель с 64 экспертами, k=6 и shared expert. Использует fine-grained эксперты для эффективного масштабирования.
Mixture of Experts модель с 64 экспертами, k=6 и shared expert. Использует fine-grained эксперты для эффективного масштабирования.