активационная разреженность

активационная разреженность

Определение

Свойство MoE-моделей, при котором каждый токен активирует лишь малую часть параметров (top-k экспертов), снижая вычислительные затраты при большом общем числе параметров.

Где встречается

Навигация