Switch Transformer

Определение

Архитектура Mixture of Experts (MoE) с большим числом экспертов и k=1, предложенная Google; первая крупная MoE модель в NLP.