Mixture of Experts

Mixture of Experts

Определение

Архитектура нейросети, где на каждый токен активируется только подмножество экспертов (например, 2 из 8), что обеспечивает высокую вычислительную эффективность при большом количестве параметров.

Где встречается

Навигация