Поиск

wiki4D-параллелизм
# 4D-параллелизм ## Определение Комбинация data, tensor, pipeline и expert parallelism для масштабирования крупных MoE-моделей (например, Mixtral). ## Где встречается - [[849…
wikiconcurrency
# concurrency ## Определение Уровень параллелизма запросов. При высоком concurrency системы, такие как vLLM, обеспечивают больший throughput. ## Где встречается - [[848. Как работает…
wikiModel parallelism
# Model parallelism ## Определение Общая стратегия распараллеливания модели, включающая Tensor Parallelism и Pipeline Parallelism. ## Где встречается - [[203. Tensor parallelism vs pipeline…
wiki3D parallelism
# 3D parallelism ## Определение Комбинация трёх уровней параллелизма (data, tensor, pipeline) для распределённого обучения больших моделей (100B+ параметров). Стандартный подход для…
wikiwarp-level parallelism
# warp-level parallelism ## Определение Метод параллелизма на уровне варпов, используемый в инструкциях WGMMA для эффективного использования Tensor Cores. ## Где встречается…
wikiasyncio.Semaphore
…Позволяет контролировать степень параллелизма при доступе к ресурсам. ## Где встречается - [[196. Настроить backpressure в ingestion|196. Настроить backpressure в ingestion…
wikiFairscale
# Fairscale ## Определение Библиотека от Meta для масштабирования обучения, поддерживающая экспертный параллелизм (expert parallelism) для MoE-моделей. ## Где встречается - [[849. Что…
answerЧто такое expert parallelism для MoE моделей (Mixtral)?
…Комбинация expert parallelism с другими видами параллелизма В больших кластерах для обучения крупных MoE-моделей используется [[Вики/4D-параллелизм\|4D…
wikiColossal-AI
# Colossal-AI ## Определение Фреймворк для распределённого обучения, предоставляющий более гибкие комбинации параллелизма (data, tensor, pipeline), чем стандартные подходы. ## Где встречается…
wikiexpert layers
…Их распределение между GPU составляет основу экспертного параллелизма. ## Где встречается - [[215. Настроить expert parallelism для Mixtral|215. Настроить expert parallelism…
wikimemory reduction
# memory reduction ## Определение Уменьшение потребления памяти за счёт параллелизма, теоретически в P раз, что оценивается при профилировании. ## Где встречается - [[425…
wikiDTensor
# DTensor ## Определение Тип тензора PyTorch с поддержкой распределённого хранения и частичной поддержкой тензорного параллелизма. Позволяет разбивать тензор на несколько устройств…
wikino_split_module_classes
…между устройствами; используется для предотвращения разрыва экспертов при экспертном параллелизме. ## Где встречается - [[215. Настроить expert parallelism для Mixtral|215. Настроить…
wikiCompute/communication ratio
…Используется для выбора оптимальной стратегии параллелизма, например, tensor parallelism. ## Где встречается - [[840. Когда tensor parallelism хуже pipeline parallelism|840. Когда…
wikidistributed training
# distributed training ## Определение Метод обучения модели на нескольких GPU или узлах с использованием параллелизма данных или модели, часто с техниками…
wikiHidden dimension
# Hidden dimension ## Определение Размерность скрытого слоя модели, определяющая объём all-reduce и вычислительную нагрузку при тензорном параллелизме. ## Где встречается - [[203…
wikireduce-scatter
# reduce-scatter ## Определение Коллективная операция для суммирования градиентов и распределения результатов по GPU; применяется в тензорном параллелизме для снижения коммуникационных…
wikiDistributed Data Parallel
# Distributed Data Parallel ## Определение Метод распределённого обучения с полной копией модели на каждом GPU и синхронизацией градиентов через AllReduce. ## Где…
wikiexpert parallelism
# expert parallelism ## Определение Техника распределённого обучения и инференса для MoE-моделей, при которой разные эксперты размещаются на разных GPU для…
wikiparallelism
# parallelism ## Определение Способность системы выполнять несколько операций (генерация токенов, вызов инструментов, этапов пайплайна) одновременно для повышения пропускной способности. ## Где встречается…
answerЧто такое 3D parallelism (data + tensor + pipeline)?
…Что такое 3D parallelism (data + tensor + pipeline)? ## Краткий тезис parallelism|3D parallelism — это комбинация трёх уровней параллелизма, используемая для распределённого…
wikiPartitioning
# Partitioning ## Определение Разделение данных на логические части (партиции) для повышения параллелизма, производительности и упрощения управления, например, в Kafka или базах…
wikiPartition
# Partition ## Определение Единица параллелизма в Kafka, гарантирующая порядок сообщений внутри себя и обеспечивающая масштабирование обработки запросов. ## Где встречается - [[407. Как…
wikiLLM inference
…В production требует управления памятью и параллелизмом. ## Где встречается - [[431. Почему LLM inference memory-bound, а не compute-bound|431…
wikiGPU
…Ключевой аппаратный ресурс для LLM, поддерживает форматы FP16, BF16, FP8 и тензорный параллелизм. ## Где встречается - [[78. Какие LLM для русского…
answerКогда tensor parallelism хуже pipeline parallelism?
…При слабой сети [[Вики/Communication overhead explosion\|overhead коммуникации]] может превысить выигрыш от параллелизма. --- ## 2. Термин: Pipeline Parallelism (PP) **[[Вики…
wikiFlash Attention 2
# Flash Attention 2 ## Определение Оптимизированная реализация механизма внимания, снижающая вычислительные затраты и задержку за счёт параллелизма по головам и меньшего…
answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Распределённое обучение Обучение больших моделей требует тензорного параллелизма (разбиение слоёв между GPU) и конвейерного параллелизма (разбиение слоёв по стадиям). Здесь…
answerЧто такое NCCL и зачем он для tensor parallelism?
…Tensor Parallelism (тензорный параллелизм) **[[Вики/Tensor parallelism\|Tensor Parallelism]] (TP)** — способ распределения модели, при котором один слой (например, [[Вики/Linear…
answerКак работает tensor parallelism для LLM инференса? В чем отличие от pipeline parallelism?
…Зачем нужен параллелизм при инференсе LLM? [[Вики/GPT-4o\|LLM]] ([[Вики/LLM\|Large Language Model]]) с десятками или сотнями миллиардов…
answerКак вы реализуете KV cache для 1M токенов на 8x H100?
…Тензорный параллелизм (8-way) **[[Вики/Tensor parallelism\|Тензорный параллелизм]] (TP)** распределяет слои и головы между [[Вики/GPU\|GPU]]. При TP…
answerTensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса?
…Три основные стратегии параллелизма — data parallelism (DP), tensor parallelism (TP) и pipeline parallelism (PP) — решают разные проблемы: DP дублирует модель…
answerКак проектировать Airflow DAG для RAG ingestion?
…частота, зависимости и параллелизм При проектировании [[Вики/DAG orchestration\|DAG]] для [[Вики/ingestion\|RAG ingestion]] нужно ответить на вопросы: - Как…
answerКак масштабировать vLLM на несколько GPU/нод?
…Tensor Parallelism (TP) — параллелизм тензоров Определение Разрезание слоёв (весов) модели вдоль скрытой размерности (hidden dimension) или линейных проекций. Каждая GPU…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить continuous batching в vLLM и измерить прирост пропускной способности
…для continuous batching важна высокая степень параллелизма. Измените скрипт: отправляйте 10–20 запросов одновременно с помощью `asyncio.Semaphore`, подождите их…
answerЧто такое NCCL и почему он критичен для multi-GPU инференса?
…зачем и какие виды параллелизма При инференсе больших языковых моделей ([[Вики/LLM\|LLM]]) или моделей компьютерного зрения часто не хватает…
answerКак работает sequence parallelism в контексте LLM?
…Сравнение с другими видами параллелизма | Параметр | Sequence Parallelism | Tensor Parallelism | Pipeline Parallelism | Data Parallelism | |----------|----------------------|--------------------|----------------------|------------------| | Ось разрезания | Длина последовательности | Скрытая размерность…
wikiPipeline parallelism
# Pipeline parallelism ## Определение Стратегия распараллеливания, при которой модель разрезается по слоям между узлами (GPU); требует микробатчей и страдает от pipeline…
answerПочему Kafka лучше RabbitMQ для event streaming?
…Для строгого упорядочивания приходится использовать single active consumer, что снижает параллелизм. --- ## 4. Когда выбирать RabbitMQ Несмотря на явные преимущества Kafka…
answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
…Вторая ([[Вики/Flash Attention 2\|FA2]], 2023) улучшила [[Вики/parallelism\|параллелизм]] и поддержку разных типов [[Вики/Attention\|attention]] (causal, masked…
wikiData parallelism
# Data parallelism ## Определение Стратегия распределения данных по нескольким репликам модели для параллельного обучения или инференса. Для LLM инференса часто комбинируется…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать synthetic eval для агента
…Ограничить [[Вики/parallelism\|параллелизм]] запросов к [[Вики/GPT-4o\|LLM]] (например, [[Вики/semaphore\|semaphore]] = 10), чтобы не превышать лимиты [[Вики…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить sharding для petabyte embeddings
…Увеличить параллелизм от 10 до 500 пользователей, снять графики p50, p95, p99. 3. **Проверить влияния количества векторов на latency:** - загрузить…
answerКак вы передаете состояние (state) между шагами агента?
…Конфликты при параллелизме — если [[Вики/agent\|агент]] запускает несколько веток (например, параллельные [[Вики/API вызовы инструментов\|вызовы инструментов]]), [[Вики/state…
answerЧто такое Wave Decoding и чем отличается от стандартного авторегрессивного?
…Сравнение Wave Decoding с авторегрессивным | Характеристика | Авторегрессивное декодирование | Wave Decoding | |----------------|--------------------------------|---------------| | [[Вики/parallelism\|Параллелизм]] | Последовательное (1 токен за шаг) | Параллельное (несколько…
answerЧто такое pipeline parallelism и проблема pipeline bubbles?
…Определение Pipeline Parallelism **Pipeline parallelism** (parallelism|конвейерный параллелизм) — одна из стратегий параллельного обучения моделей, не умещающихся на одном GPU. Модель…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать cache warming
…2. [[Вики/Реализовать конфигурацию\|Реализовать конфигурацию]] через переменные окружения (URL приложения, путь к файлу, параллелизм, TTL). 3. [[Вики/Добавить обработку…
answerКак вы строите real-time voice agent с latency <500ms?
…Управление latency (буферизация, параллелизм) Общая задержка складывается из: - ASR latency: 100–200 мс - [[Вики/Latency\|LLM latency]]: 100–200 мс…
answerКак работает tensor parallelism для LLM training? Чем отличается от инференса?
…Другие виды параллелизма (сравнение) | Параллелизм | Разделение | Коммуникация | Применение | |-------------|------------|--------------|------------| | Data Parallelism (DP) | данные (батч) по GPU | AllReduce градиентов после backward | маленькие…
answerКак работает FlashAttention-3 технически? Чем отличается от FA2?
…SM (132 на H100 против 108 на A100) | Больше параллелизма | --- ## 3. WGMMA (Warp Group Matrix Multiply-Accumulate) [[Вики/WGMMA\|WGMMA…