English translation is not available yet. Showing Russian content.
DeepSeek-MoE
DeepSeek-MoE
Определение
Mixture of Experts модель с 64 экспертами, k=6 и shared expert. Использует fine-grained эксперты для эффективного масштабирования.
English translation is not available yet. Showing Russian content.
Mixture of Experts модель с 64 экспертами, k=6 и shared expert. Использует fine-grained эксперты для эффективного масштабирования.