Mixture of Experts
Mixture of Experts
Определение
Архитектура нейросети, где на каждый токен активируется только подмножество экспертов (например, 2 из 8), что обеспечивает высокую вычислительную эффективность при большом количестве параметров.
Где встречается
- 304. Что такое FlashAttention с точки зрения CUDA programming
- 716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context
- Практика
- 800+ вопросов
- 94. Реализовать failure injection для MoE router
- 215. Настроить expert parallelism для Mixtral