English translation is not available yet. Showing Russian content.
Switch Transformer
Switch Transformer
Определение
Архитектура Mixture of Experts (MoE) с большим числом экспертов и k=1, предложенная Google; первая крупная MoE модель в NLP.
Где встречается
- 435. Почему MoE (Mixture of Experts) быстрее dense модели при инференсе
- 680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)