активационная разреженность
активационная разреженность
Определение
Свойство MoE-моделей, при котором каждый токен активирует лишь малую часть параметров (top-k экспертов), снижая вычислительные затраты при большом общем числе параметров.
Свойство MoE-моделей, при котором каждый токен активирует лишь малую часть параметров (top-k экспертов), снижая вычислительные затраты при большом общем числе параметров.