Поиск

  • wikiDeepSpeed-MoE

    # DeepSpeed-MoE ## Определение Расширение DeepSpeed от Microsoft для expert parallelism и других оптимизаций MoE-моделей, как для обучения, так и…

  • wikisparse MoE

    # sparse MoE ## Определение Разреженная смесь экспертов (sparse MoE) — архитектура, где при каждом шаге активируется лишь небольшая часть экспертов, что снижает…

  • wikiSwitch Transformer

    # Switch Transformer ## Определение Архитектура Mixture of Experts (MoE) с большим числом экспертов и k=1, предложенная Google; первая крупная MoE

  • wikiDeepSeek-MoE

    # DeepSeek-MoE ## Определение Mixture of Experts модель с 64 экспертами, k=6 и shared expert. Использует fine-grained эксперты для…

  • wikiQwen2.5-MoE

    # Qwen2.5-MoE ## Определение Mixture-of-Experts модель с 8 экспертами (k=2) и 14 млрд параметров. Оптимизирована для инференса…

  • wikiMixtral

    # Mixtral ## Определение Mixtral — семейство моделей архитектуры Mixture of Experts (MoE) от Mistral AI, активирующих только часть параметров на каждом токене…

  • wikiExpert

    # Expert ## Определение Один из нескольких Feed-Forward Network модулей в слое Mixture of Experts (MoE), активируемый только для определённых токенов…

  • wikiall-to-all communication

    …Почему MoE (Mixture of Experts) быстрее dense модели при инференсе|435. Почему MoE (Mixture of Experts) быстрее dense модели при…

  • wikiRouting entropy

    # Routing entropy ## Определение Мера распределения нагрузки между экспертами в MoE, изменяющаяся при отказах маршрутизатора. ## Где встречается - [[94. Реализовать failure injection…

  • answerПочему MoE (Mixture of Experts) быстрее dense модели при инференсе?

    …Mixture of Experts (MoE) [[Вики/Mixture of Experts\|MoE]] — это архитектура нейронной сети, где несколько экспертов (отдельных подсетей, обычно **[[Вики…

  • wikiFairscale

    # Fairscale ## Определение Библиотека от Meta для масштабирования обучения, поддерживающая экспертный параллелизм (expert parallelism) для MoE-моделей. ## Где встречается - [[849. Что…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить Mixture of Experts (Mixtral)

    …if hasattr(layer, 'block_sparse_moe'): layer.block_sparse_moe.gate.register_forward_hook(hook_fn) ``` 2. **Прогнать каждый текст…

  • wikiMegablocks

    # Megablocks ## Определение Библиотека для эффективного expert parallelism в MoE моделях, оптимизирующая разреженные матричные умножения и коммуникацию. ## Где встречается - [[849. Что…

  • wikiexpert placement

    # expert placement ## Определение Стратегическое размещение экспертов MoE на GPU с учётом их популярности для снижения дисбаланса вычислительной нагрузки. ## Где встречается…

  • wiki4D-параллелизм

    # 4D-параллелизм ## Определение Комбинация data, tensor, pipeline и expert parallelism для масштабирования крупных MoE-моделей (например, Mixtral). ## Где встречается - [[849…

  • wikiTop-k routing

    …Почему MoE (Mixture of Experts) быстрее dense модели при инференсе|435. Почему MoE (Mixture of Experts) быстрее dense модели при…

  • wikiauxiliary loss

    …Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)|680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг…

  • wikiexpert parallelism

    # expert parallelism ## Определение Техника распределённого обучения и инференса для MoE-моделей, при которой разные эксперты размещаются на разных GPU для…

  • wikicapacity factor

    # capacity factor ## Определение Capacity factor — коэффициент ёмкости в моделях Mixture of Experts (MoE), ограничивающий максимальное количество токенов, обрабатываемых одним экспертом…

  • answerЧто такое expert parallelism для MoE моделей (Mixtral)?

    …Реализации и инструменты | Инструмент / фреймворк | Описание | |------------------------|----------| | [[Вики/DeepSpeed-MoE\|DeepSpeed-MoE]] (Microsoft) | Расширение DeepSpeed, поддерживающее expert parallelism, балансировку, capacity factor…

  • wikiактивационная разреженность

    # активационная разреженность ## Определение Свойство MoE-моделей, при котором каждый токен активирует лишь малую часть параметров (top-k экспертов), снижая вычислительные…

  • wikiDense model

    …Противопоставляется разреженным моделям (MoE), где активируется лишь часть экспертов. ## Где встречается - [[435. Почему MoE (Mixture of Experts) быстрее dense модели…

  • wikiFLOPs

    # FLOPs ## Определение Мера вычислительной сложности модели, количество операций с плавающей запятой; используется для сравнения архитектур (dense vs MoE) и диагностики…

  • wikiRouter

    # Router ## Определение Компонент, который классифицирует входящий запрос и направляет его к соответствующему обработчику (модели, агенту, эксперту MoE) на основе сложности…

  • answerКак работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)?

    …Mixture of Experts (MoE) [[Вики/Mixture of Experts\|MoE]] — это метод ансамблирования нейронных сетей, где несколько «экспертов» (подсетей) специализируются на…

  • wikiSparse computation

    # Sparse computation ## Определение Режим вычислений, при котором активируется только часть параметров (например, эксперты в MoE) или используются разреженные матрицы, что…

  • answerКак работает MoE (Mixture of Experts) внутри LLM (Mixtral, GPT-4)?

    MoE (Mixture of Experts) [[Вики/Mixture of Experts\|MoE]] — это метод ансамблирования нейронных сетей, где несколько подсетей («экспертов») специализируются на…

  • wikiChaos Monkey

    …Реализовать failure injection для MoE router|94. Реализовать failure injection для MoE router]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiHard failure

    …Реализовать failure injection для MoE router|94. Реализовать failure injection для MoE router]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiMixture of Experts

    …Реализовать failure injection для MoE router|94. Реализовать failure injection для MoE router]] - [[215. Настроить expert parallelism для Mixtral|215…

  • wikithop

    …Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)|680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг…

  • wikiTutel

    …Что такое expert parallelism для MoE моделей (Mixtral)|849. Что такое expert parallelism для MoE моделей (Mixtral)]] ## Навигация - [[00. Индекс…

  • wikiScaling Laws

    …Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)|680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг…

  • wikiExpert Choice Routing

    …Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)|680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг…

  • wikiGLaM

    …Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)|680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг…

  • wikiRouter Collapse

    …Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)|680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг…

  • wikigraceful degradation

    …Реализовать failure injection для MoE router|94. Реализовать failure injection для MoE router]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiCommunication overhead explosion

    …Что такое expert parallelism для MoE моделей (Mixtral)|849. Что такое expert parallelism для MoE моделей (Mixtral)]] - [[800+ вопросов|800…

  • wikiLoad balancer

    …Почему MoE (Mixture of Experts) быстрее dense модели при инференсе|435. Почему MoE (Mixture of Experts) быстрее dense модели при…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать failure injection для MoE router

    …Реализовать failure injection для MoE router ## 1. Цель задачи Разработать [[Вики/Scenario\|сценарий]] отказоустойчивости для [[Вики/Mixture of Experts\|Mixture…

  • wikiDynamic routing

    …Что такое expert parallelism для MoE моделей (Mixtral)|849. Что такое expert parallelism для MoE моделей (Mixtral)]] - [[800+ вопросов|800…

  • wikicontinuous learning

    …Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)|680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг…

  • wikiexpert layers

    # expert layers ## Определение MLP-слои в модели MoE, выполняющие роль экспертов. Их распределение между GPU составляет основу экспертного параллелизма. ## Где…

  • wikifault injection

    …Реализовать failure injection для MoE router|94. Реализовать failure injection для MoE router]] - [[98. Реализовать chaos testing для агента|98…

  • wikiMixtral 8x22B

    # Mixtral 8x22B ## Определение Mixtral 8x22B — открытая MoE-модель от Mistral с 8 экспертами, каждый по 22B параметров, предназначенная для сложных…

  • wikiOffloading

    …Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)|680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг…

  • wikiModel parallelism

    …Что такое expert parallelism для MoE моделей (Mixtral)|849. Что такое expert parallelism для MoE моделей (Mixtral)]] ## Навигация - [[00. Индекс…

  • wikiMemory Bandwidth

    …Почему MoE (Mixture of Experts) быстрее dense модели при инференсе|435. Почему MoE (Mixture of Experts) быстрее dense модели при…

  • wikiJamba

    # Jamba ## Определение Гибридная архитектура от AI21 Labs, чередующая Mamba-слои (State Space Models), attention-слои и MoE (Mixture of Experts…

  • wikiselective pruning

    …Почему MoE (Mixture of Experts) быстрее dense модели при инференсе|435. Почему MoE (Mixture of Experts) быстрее dense модели при…