Поиск

  • wiki4D-параллелизм

    # 4D-параллелизм ## Определение Комбинация data, tensor, pipeline и expert parallelism для масштабирования крупных MoE-моделей (например, Mixtral). ## Где встречается - [[849…

  • wikiconcurrency

    # concurrency ## Определение Уровень параллелизма запросов. При высоком concurrency системы, такие как vLLM, обеспечивают больший throughput. ## Где встречается - [[848. Как работает…

  • wikiModel parallelism

    # Model parallelism ## Определение Общая стратегия распараллеливания модели, включающая Tensor Parallelism и Pipeline Parallelism. ## Где встречается - [[203. Tensor parallelism vs pipeline…

  • wiki3D parallelism

    # 3D parallelism ## Определение Комбинация трёх уровней параллелизма (data, tensor, pipeline) для распределённого обучения больших моделей (100B+ параметров). Стандартный подход для…

  • wikiwarp-level parallelism

    # warp-level parallelism ## Определение Метод параллелизма на уровне варпов, используемый в инструкциях WGMMA для эффективного использования Tensor Cores. ## Где встречается…

  • wikiasyncio.Semaphore

    …Позволяет контролировать степень параллелизма при доступе к ресурсам. ## Где встречается - [[196. Настроить backpressure в ingestion|196. Настроить backpressure в ingestion…

  • wikiFairscale

    # Fairscale ## Определение Библиотека от Meta для масштабирования обучения, поддерживающая экспертный параллелизм (expert parallelism) для MoE-моделей. ## Где встречается - [[849. Что…

  • answerЧто такое expert parallelism для MoE моделей (Mixtral)?

    …Комбинация expert parallelism с другими видами параллелизма В больших кластерах для обучения крупных MoE-моделей используется [[Вики/4D-параллелизм\|4D…

  • wikiColossal-AI

    # Colossal-AI ## Определение Фреймворк для распределённого обучения, предоставляющий более гибкие комбинации параллелизма (data, tensor, pipeline), чем стандартные подходы. ## Где встречается…

  • wikiexpert layers

    …Их распределение между GPU составляет основу экспертного параллелизма. ## Где встречается - [[215. Настроить expert parallelism для Mixtral|215. Настроить expert parallelism…

  • wikimemory reduction

    # memory reduction ## Определение Уменьшение потребления памяти за счёт параллелизма, теоретически в P раз, что оценивается при профилировании. ## Где встречается - [[425…

  • wikiDTensor

    # DTensor ## Определение Тип тензора PyTorch с поддержкой распределённого хранения и частичной поддержкой тензорного параллелизма. Позволяет разбивать тензор на несколько устройств…

  • wikino_split_module_classes

    …между устройствами; используется для предотвращения разрыва экспертов при экспертном параллелизме. ## Где встречается - [[215. Настроить expert parallelism для Mixtral|215. Настроить…

  • wikiCompute/communication ratio

    …Используется для выбора оптимальной стратегии параллелизма, например, tensor parallelism. ## Где встречается - [[840. Когда tensor parallelism хуже pipeline parallelism|840. Когда…

  • wikidistributed training

    # distributed training ## Определение Метод обучения модели на нескольких GPU или узлах с использованием параллелизма данных или модели, часто с техниками…

  • wikiHidden dimension

    # Hidden dimension ## Определение Размерность скрытого слоя модели, определяющая объём all-reduce и вычислительную нагрузку при тензорном параллелизме. ## Где встречается - [[203…

  • wikireduce-scatter

    # reduce-scatter ## Определение Коллективная операция для суммирования градиентов и распределения результатов по GPU; применяется в тензорном параллелизме для снижения коммуникационных…

  • wikiDistributed Data Parallel

    # Distributed Data Parallel ## Определение Метод распределённого обучения с полной копией модели на каждом GPU и синхронизацией градиентов через AllReduce. ## Где…

  • wikiexpert parallelism

    # expert parallelism ## Определение Техника распределённого обучения и инференса для MoE-моделей, при которой разные эксперты размещаются на разных GPU для…

  • wikiparallelism

    # parallelism ## Определение Способность системы выполнять несколько операций (генерация токенов, вызов инструментов, этапов пайплайна) одновременно для повышения пропускной способности. ## Где встречается…

  • answerЧто такое 3D parallelism (data + tensor + pipeline)?

    …Что такое 3D parallelism (data + tensor + pipeline)? ## Краткий тезис parallelism|3D parallelism — это комбинация трёх уровней параллелизма, используемая для распределённого…

  • wikiPartitioning

    # Partitioning ## Определение Разделение данных на логические части (партиции) для повышения параллелизма, производительности и упрощения управления, например, в Kafka или базах…

  • wikiPartition

    # Partition ## Определение Единица параллелизма в Kafka, гарантирующая порядок сообщений внутри себя и обеспечивающая масштабирование обработки запросов. ## Где встречается - [[407. Как…

  • wikiLLM inference

    …В production требует управления памятью и параллелизмом. ## Где встречается - [[431. Почему LLM inference memory-bound, а не compute-bound|431…

  • wikiGPU

    …Ключевой аппаратный ресурс для LLM, поддерживает форматы FP16, BF16, FP8 и тензорный параллелизм. ## Где встречается - [[78. Какие LLM для русского…

  • answerКогда tensor parallelism хуже pipeline parallelism?

    …При слабой сети [[Вики/Communication overhead explosion\|overhead коммуникации]] может превысить выигрыш от параллелизма. --- ## 2. Термин: Pipeline Parallelism (PP) **[[Вики…

  • wikiFlash Attention 2

    # Flash Attention 2 ## Определение Оптимизированная реализация механизма внимания, снижающая вычислительные затраты и задержку за счёт параллелизма по головам и меньшего…

  • answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?

    …Распределённое обучение Обучение больших моделей требует тензорного параллелизма (разбиение слоёв между GPU) и конвейерного параллелизма (разбиение слоёв по стадиям). Здесь…

  • answerЧто такое NCCL и зачем он для tensor parallelism?

    …Tensor Parallelism (тензорный параллелизм) **[[Вики/Tensor parallelism\|Tensor Parallelism]] (TP)** — способ распределения модели, при котором один слой (например, [[Вики/Linear…

  • answerКак работает tensor parallelism для LLM инференса? В чем отличие от pipeline parallelism?

    …Зачем нужен параллелизм при инференсе LLM? [[Вики/GPT-4o\|LLM]] ([[Вики/LLM\|Large Language Model]]) с десятками или сотнями миллиардов…

  • answerКак вы реализуете KV cache для 1M токенов на 8x H100?

    …Тензорный параллелизм (8-way) **[[Вики/Tensor parallelism\|Тензорный параллелизм]] (TP)** распределяет слои и головы между [[Вики/GPU\|GPU]]. При TP…

  • answerTensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса?

    …Три основные стратегии параллелизма — data parallelism (DP), tensor parallelism (TP) и pipeline parallelism (PP) — решают разные проблемы: DP дублирует модель…

  • answerКак проектировать Airflow DAG для RAG ingestion?

    …частота, зависимости и параллелизм При проектировании [[Вики/DAG orchestration\|DAG]] для [[Вики/ingestion\|RAG ingestion]] нужно ответить на вопросы: - Как…

  • answerКак масштабировать vLLM на несколько GPU/нод?

    …Tensor Parallelism (TP) — параллелизм тензоров Определение Разрезание слоёв (весов) модели вдоль скрытой размерности (hidden dimension) или линейных проекций. Каждая GPU…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить continuous batching в vLLM и измерить прирост пропускной способности

    …для continuous batching важна высокая степень параллелизма. Измените скрипт: отправляйте 10–20 запросов одновременно с помощью `asyncio.Semaphore`, подождите их…

  • answerЧто такое NCCL и почему он критичен для multi-GPU инференса?

    …зачем и какие виды параллелизма При инференсе больших языковых моделей ([[Вики/LLM\|LLM]]) или моделей компьютерного зрения часто не хватает…

  • answerКак работает sequence parallelism в контексте LLM?

    …Сравнение с другими видами параллелизма | Параметр | Sequence Parallelism | Tensor Parallelism | Pipeline Parallelism | Data Parallelism | |----------|----------------------|--------------------|----------------------|------------------| | Ось разрезания | Длина последовательности | Скрытая размерность…

  • wikiPipeline parallelism

    # Pipeline parallelism ## Определение Стратегия распараллеливания, при которой модель разрезается по слоям между узлами (GPU); требует микробатчей и страдает от pipeline…

  • answerПочему Kafka лучше RabbitMQ для event streaming?

    …Для строгого упорядочивания приходится использовать single active consumer, что снижает параллелизм. --- ## 4. Когда выбирать RabbitMQ Несмотря на явные преимущества Kafka…

  • answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?

    …Вторая ([[Вики/Flash Attention 2\|FA2]], 2023) улучшила [[Вики/parallelism\|параллелизм]] и поддержку разных типов [[Вики/Attention\|attention]] (causal, masked…

  • wikiData parallelism

    # Data parallelism ## Определение Стратегия распределения данных по нескольким репликам модели для параллельного обучения или инференса. Для LLM инференса часто комбинируется…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать synthetic eval для агента

    …Ограничить [[Вики/parallelism\|параллелизм]] запросов к [[Вики/GPT-4o\|LLM]] (например, [[Вики/semaphore\|semaphore]] = 10), чтобы не превышать лимиты [[Вики…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить sharding для petabyte embeddings

    …Увеличить параллелизм от 10 до 500 пользователей, снять графики p50, p95, p99. 3. **Проверить влияния количества векторов на latency:** - загрузить…

  • answerКак вы передаете состояние (state) между шагами агента?

    …Конфликты при параллелизме — если [[Вики/agent\|агент]] запускает несколько веток (например, параллельные [[Вики/API вызовы инструментов\|вызовы инструментов]]), [[Вики/state…

  • answerЧто такое Wave Decoding и чем отличается от стандартного авторегрессивного?

    …Сравнение Wave Decoding с авторегрессивным | Характеристика | Авторегрессивное декодирование | Wave Decoding | |----------------|--------------------------------|---------------| | [[Вики/parallelism\|Параллелизм]] | Последовательное (1 токен за шаг) | Параллельное (несколько…

  • answerЧто такое pipeline parallelism и проблема pipeline bubbles?

    …Определение Pipeline Parallelism **Pipeline parallelism** (parallelism|конвейерный параллелизм) — одна из стратегий параллельного обучения моделей, не умещающихся на одном GPU. Модель…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать cache warming

    …2. [[Вики/Реализовать конфигурацию\|Реализовать конфигурацию]] через переменные окружения (URL приложения, путь к файлу, параллелизм, TTL). 3. [[Вики/Добавить обработку…

  • answerКак вы строите real-time voice agent с latency <500ms?

    …Управление latency (буферизация, параллелизм) Общая задержка складывается из: - ASR latency: 100–200 мс - [[Вики/Latency\|LLM latency]]: 100–200 мс…

  • answerКак работает tensor parallelism для LLM training? Чем отличается от инференса?

    …Другие виды параллелизма (сравнение) | Параллелизм | Разделение | Коммуникация | Применение | |-------------|------------|--------------|------------| | Data Parallelism (DP) | данные (батч) по GPU | AllReduce градиентов после backward | маленькие…

  • answerКак работает FlashAttention-3 технически? Чем отличается от FA2?

    …SM (132 на H100 против 108 на A100) | Больше параллелизма | --- ## 3. WGMMA (Warp Group Matrix Multiply-Accumulate) [[Вики/WGMMA\|WGMMA…