中文翻译暂不可用,显示俄语原文。
активационная разреженность
активационная разреженность
Определение
Свойство MoE-моделей, при котором каждый токен активирует лишь малую часть параметров (top-k экспертов), снижая вычислительные затраты при большом общем числе параметров.