Поиск

wikiDeepSpeed-MoE
# DeepSpeed-MoE ## Определение Расширение DeepSpeed от Microsoft для expert parallelism и других оптимизаций MoE-моделей, как для обучения, так и…
wikisparse MoE
# sparse MoE ## Определение Разреженная смесь экспертов (sparse MoE) — архитектура, где при каждом шаге активируется лишь небольшая часть экспертов, что снижает…
wikiSwitch Transformer
# Switch Transformer ## Определение Архитектура Mixture of Experts (MoE) с большим числом экспертов и k=1, предложенная Google; первая крупная MoE…
wikiDeepSeek-MoE
# DeepSeek-MoE ## Определение Mixture of Experts модель с 64 экспертами, k=6 и shared expert. Использует fine-grained эксперты для…
wikiQwen2.5-MoE
# Qwen2.5-MoE ## Определение Mixture-of-Experts модель с 8 экспертами (k=2) и 14 млрд параметров. Оптимизирована для инференса…
wikiMixtral
# Mixtral ## Определение Mixtral — семейство моделей архитектуры Mixture of Experts (MoE) от Mistral AI, активирующих только часть параметров на каждом токене…
wikiExpert
# Expert ## Определение Один из нескольких Feed-Forward Network модулей в слое Mixture of Experts (MoE), активируемый только для определённых токенов…
wikiall-to-all communication
…Почему MoE (Mixture of Experts) быстрее dense модели при инференсе|435. Почему MoE (Mixture of Experts) быстрее dense модели при…
wikiRouting entropy
# Routing entropy ## Определение Мера распределения нагрузки между экспертами в MoE, изменяющаяся при отказах маршрутизатора. ## Где встречается - [[94. Реализовать failure injection…
answerПочему MoE (Mixture of Experts) быстрее dense модели при инференсе?
…Mixture of Experts (MoE) [[Вики/Mixture of Experts\|MoE]] — это архитектура нейронной сети, где несколько экспертов (отдельных подсетей, обычно **[[Вики…
wikiFairscale
# Fairscale ## Определение Библиотека от Meta для масштабирования обучения, поддерживающая экспертный параллелизм (expert parallelism) для MoE-моделей. ## Где встречается - [[849. Что…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить Mixture of Experts (Mixtral)
…if hasattr(layer, 'block_sparse_moe'): layer.block_sparse_moe.gate.register_forward_hook(hook_fn) ``` 2. **Прогнать каждый текст…
wikiMegablocks
# Megablocks ## Определение Библиотека для эффективного expert parallelism в MoE моделях, оптимизирующая разреженные матричные умножения и коммуникацию. ## Где встречается - [[849. Что…
wikiexpert placement
# expert placement ## Определение Стратегическое размещение экспертов MoE на GPU с учётом их популярности для снижения дисбаланса вычислительной нагрузки. ## Где встречается…
wiki4D-параллелизм
# 4D-параллелизм ## Определение Комбинация data, tensor, pipeline и expert parallelism для масштабирования крупных MoE-моделей (например, Mixtral). ## Где встречается - [[849…
wikiTop-k routing
…Почему MoE (Mixture of Experts) быстрее dense модели при инференсе|435. Почему MoE (Mixture of Experts) быстрее dense модели при…
wikiauxiliary loss
…Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)|680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг…
wikiexpert parallelism
# expert parallelism ## Определение Техника распределённого обучения и инференса для MoE-моделей, при которой разные эксперты размещаются на разных GPU для…
wikicapacity factor
# capacity factor ## Определение Capacity factor — коэффициент ёмкости в моделях Mixture of Experts (MoE), ограничивающий максимальное количество токенов, обрабатываемых одним экспертом…
answerЧто такое expert parallelism для MoE моделей (Mixtral)?
…Реализации и инструменты | Инструмент / фреймворк | Описание | |------------------------|----------| | [[Вики/DeepSpeed-MoE\|DeepSpeed-MoE]] (Microsoft) | Расширение DeepSpeed, поддерживающее expert parallelism, балансировку, capacity factor…
wikiактивационная разреженность
# активационная разреженность ## Определение Свойство MoE-моделей, при котором каждый токен активирует лишь малую часть параметров (top-k экспертов), снижая вычислительные…
wikiDense model
…Противопоставляется разреженным моделям (MoE), где активируется лишь часть экспертов. ## Где встречается - [[435. Почему MoE (Mixture of Experts) быстрее dense модели…
wikiFLOPs
# FLOPs ## Определение Мера вычислительной сложности модели, количество операций с плавающей запятой; используется для сравнения архитектур (dense vs MoE) и диагностики…
wikiRouter
# Router ## Определение Компонент, который классифицирует входящий запрос и направляет его к соответствующему обработчику (модели, агенту, эксперту MoE) на основе сложности…
answerКак работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)?
…Mixture of Experts (MoE) [[Вики/Mixture of Experts\|MoE]] — это метод ансамблирования нейронных сетей, где несколько «экспертов» (подсетей) специализируются на…
wikiSparse computation
# Sparse computation ## Определение Режим вычислений, при котором активируется только часть параметров (например, эксперты в MoE) или используются разреженные матрицы, что…
answerКак работает MoE (Mixture of Experts) внутри LLM (Mixtral, GPT-4)?
…MoE (Mixture of Experts) [[Вики/Mixture of Experts\|MoE]] — это метод ансамблирования нейронных сетей, где несколько подсетей («экспертов») специализируются на…
wikiChaos Monkey
…Реализовать failure injection для MoE router|94. Реализовать failure injection для MoE router]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
wikiHard failure
…Реализовать failure injection для MoE router|94. Реализовать failure injection для MoE router]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
wikiMixture of Experts
…Реализовать failure injection для MoE router|94. Реализовать failure injection для MoE router]] - [[215. Настроить expert parallelism для Mixtral|215…
wikithop
…Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)|680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг…
wikiTutel
…Что такое expert parallelism для MoE моделей (Mixtral)|849. Что такое expert parallelism для MoE моделей (Mixtral)]] ## Навигация - [[00. Индекс…
wikiScaling Laws
…Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)|680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг…
wikiExpert Choice Routing
…Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)|680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг…
wikiGLaM
…Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)|680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг…
wikiRouter Collapse
…Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)|680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг…
wikigraceful degradation
…Реализовать failure injection для MoE router|94. Реализовать failure injection для MoE router]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
wikiCommunication overhead explosion
…Что такое expert parallelism для MoE моделей (Mixtral)|849. Что такое expert parallelism для MoE моделей (Mixtral)]] - [[800+ вопросов|800…
wikiLoad balancer
…Почему MoE (Mixture of Experts) быстрее dense модели при инференсе|435. Почему MoE (Mixture of Experts) быстрее dense модели при…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать failure injection для MoE router
…Реализовать failure injection для MoE router ## 1. Цель задачи Разработать [[Вики/Scenario\|сценарий]] отказоустойчивости для [[Вики/Mixture of Experts\|Mixture…
wikiDynamic routing
…Что такое expert parallelism для MoE моделей (Mixtral)|849. Что такое expert parallelism для MoE моделей (Mixtral)]] - [[800+ вопросов|800…
wikicontinuous learning
…Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)|680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг…
wikiexpert layers
# expert layers ## Определение MLP-слои в модели MoE, выполняющие роль экспертов. Их распределение между GPU составляет основу экспертного параллелизма. ## Где…
wikifault injection
…Реализовать failure injection для MoE router|94. Реализовать failure injection для MoE router]] - [[98. Реализовать chaos testing для агента|98…
wikiMixtral 8x22B
# Mixtral 8x22B ## Определение Mixtral 8x22B — открытая MoE-модель от Mistral с 8 экспертами, каждый по 22B параметров, предназначенная для сложных…
wikiOffloading
…Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)|680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг…
wikiModel parallelism
…Что такое expert parallelism для MoE моделей (Mixtral)|849. Что такое expert parallelism для MoE моделей (Mixtral)]] ## Навигация - [[00. Индекс…
wikiMemory Bandwidth
…Почему MoE (Mixture of Experts) быстрее dense модели при инференсе|435. Почему MoE (Mixture of Experts) быстрее dense модели при…
wikiJamba
# Jamba ## Определение Гибридная архитектура от AI21 Labs, чередующая Mamba-слои (State Space Models), attention-слои и MoE (Mixture of Experts…
wikiselective pruning
…Почему MoE (Mixture of Experts) быстрее dense модели при инференсе|435. Почему MoE (Mixture of Experts) быстрее dense модели при…