Поиск

  • wikiauto_wrap_policy

    # auto_wrap_policy ## Определение Параметр FSDP, определяющий, какие модули модели оборачивать в отдельные FSDP-юниты для распределенного обучения. ## Где встречается…

  • wikiFSDP

    …Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[473…

  • answerКак работает packing для variable-length sequences в FSDP?

    …Как packing работает в контексте FSDP **[[Вики/FSDP\|FSDP]] ([[Вики/FSDP\|Fully Sharded Data Parallelism]])** — техника распределённого обучения, при которой…

  • answerКак работает FSDP (Fully Sharded Data Parallel) в PyTorch?

    …Как работает FSDP: общая идея [[Вики/FSDP\|FSDP]] делит [[Вики/model\|модель]] на шарды (обычно по слоям). Каждый [[Вики/GPU…

  • wikiShardingStrategy

    # ShardingStrategy ## Определение Параметр конфигурации FSDP, определяющий степень шардирования модели: FULL_SHARD, SHARD_GRAD_OP, NO_SHARD. ## Где встречается - [[471. Как…

  • wikiFullyShardedDataParallel

    …Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] ## Навигация…

  • wiki_set_sequence_lengths

    # _set_sequence_lengths ## Определение Внутренний метод FSDP, хранящий длины исходных последовательностей в упаковке для корректного обратного прохода при обучении с…

  • wiki_set_padded_sequence

    # _set_padded_sequence ## Определение Внутренний метод FSDP, помечающий тензор как упакованный (padded) для корректной обработки градиентов и коммуникации между шардами…

  • wikimax_position_embeddings

    …Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] ## Навигация…

  • wikicollate function

    …Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] ## Навигация…

  • wikivariable-length sequences

    …Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[800…

  • wikiCPU offload

    …Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[244…

  • wikipacking sequences

    …Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[738…

  • wikibinning

    …Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[711…

  • wikiDistributed Data Parallel

    …Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[472…

  • wikiDataLoader

    …Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[56…

  • wikiAllGather

    # AllGather ## Определение Коллективная коммуникационная операция, при которой каждый узел рассылает свои данные всем остальным; используется в FSDP и ZeRO-3…

  • wikiReduceScatter

    …Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] ## Навигация…

  • wikiModel parallelism

    …Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[480…

  • wikigradient accumulation

    …Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[480…

  • wikisharding

    …Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[851…

  • wikipadded sequences

    …Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[704…

  • wikiZeRO

    …Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[478…

  • wikiLoss

    …Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[675…

  • wikiInfiniBand

    …Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[Практика…

  • wikiмаскировка

    …Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[485…

  • wikioptimizer state

    # optimizer state ## Определение Дополнительные данные, хранимые оптимизатором (например, моменты в Adam), которые шардятся в ZeRO-1/FSDP для экономии памяти…

  • wikiDeepSpeed

    …Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[473…

  • wikiAllReduce

    …Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[478…

  • wikiPipeline parallelism

    …Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[709…

  • answerЧто такое 3D parallelism (data + tensor + pipeline)?

    …используется 3D parallelism с разбивкой на 8 узлов по 8 GPU + FSDP. Без 3D parallelism обучение модели размером 175B на…

  • answerЧто такое DeepSpeed ZeRO-Offload и когда он полезен?

    …Как работает gradient checkpointing в DeepSpeed\|465]] | Что такое FSDP и как он соотносится с ZeRO? | | [[466. Что такое curriculum…

  • wikiDistilGPT2

    …Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[484…

  • wikimixed precision training

    …Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[472…

  • wikiTensor parallelism

    …Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[485…

  • answerЧто такое activation offloading и когда он нужен?

    …Как работает packing для variable-length sequences в FSDP\|476]] | Distributed training (общие принципы) | --- ## Навигация (Obsidian) - Предыдущий: [[478. Как работает…

  • wikicontinuous batching

    …Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[544…

  • answerКакие фреймворки для fine-tuning вы используете?

    …поддерживает [[Вики/DeepSpeed\|DeepSpeed]] ZeRO-2/3, [[Вики/FSDP\|FSDP]], мульти‑[[Вики/GPU\|GPU]], облачные очереди ([[Вики/SLURM\|SLURM]], RunPod…

  • answerЧто такое torch.compile и как он ускоряет training?

    …Как работает FSDP (Fully Sharded Data Parallel) в PyTorch\|471]] | Смешанная точность (AMP) и её влияние на скорость | | [[472. Почему…

  • answerКак работает NVLink Switch System на DGX H100?

    …Что такое ONNX Runtime и когда он выгоден для LLM\|320]] | FSDP и его зависимость от interconnect | --- ## 12. Навигация (Obsidian…

  • answerКак работает Mixed Precision Training (FP16 + FP32 master веса)?

    …Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Distributed Training (DDP, FSDP) | | [[471. Как работает FSDP (Fully Sharded…

  • answerПочему training 70B модели требует optimizer sharding (ZeRO-3)?

    …Альтернативы ZeRO-3 - **FSDP (Fully Sharded Data Parallel)** — реализация PyTorch, аналогичная ZeRO-3. Позволяет шардировать параметры, градиенты и оптимизатор. FSDP

  • answerЧто такое curriculum learning на уровне данных для LLM?

    …Как работает packing для variable-length sequences в FSDP\|476]] | Data mixing strategies для LLM | | [[478. Как работает distributed optimizer…

  • answerПочему tokenizer влияет на стоимость training?

    …Как работает packing для variable-length sequences в FSDP\|476]] | Почему fine-tuning стоит дешевле, чем pre-training? | | [[480. Как…

  • answerПочему gradient accumulation эквивалентен большому batch с точки зрения оптимизации?

    …Как работает FSDP (Fully Sharded Data Parallel) в PyTorch\|471]] | Сравнение методов уменьшения памяти при обучении | | [[473. Что такое torch…

  • answerПочему small batch size (<32) ухудшает training стабильность?

    …Как работает FSDP (Fully Sharded Data Parallel) в PyTorch\|471]] | Почему warmup важен при обучении LLM? | | [[472. Почему gradient accumulation…

  • answerЧто такое NCCL и зачем он для tensor parallelism?

    …TP комбинируется с Data Parallelism. **Пример кода с PyTorch FSDP + TP (упрощённо):** ```python # Инициализация NCCL torch.distributed.init_process_group…

  • answerКак работает distributed optimizer в PyTorch (torch.distributed.optim)?

    …Что такое LoRA для training (инференс уже знаем)\|481]] | Сравнение FSDP и ZeroRedundancyOptimizer | | [[482. Как работает QLoRA (Quantized LoRA) для…

  • answerКак работает FlashAttention для training (не только inference)?

    …Как работает FSDP (Fully Sharded Data Parallel) в PyTorch\|471]] | KV Cache: что такое и как работает в inference | | [[472…

  • answerКак работает gradient checkpointing в DeepSpeed?

    …Что такое activation recomputation (checkpointing) и зачем оно нужно\|463]] | В чём разница между ZeRO и FSDP? | | [[464. Почему BF16…