Qwen2.5-MoE

Qwen2.5-MoE

Определение

Mixture-of-Experts модель с 8 экспертами (k=2) и 14 млрд параметров. Оптимизирована для инференса благодаря спарсингу активаций. Позволяет повысить эффективность обработки при сохранении качества.

Где встречается

Навигация