Поиск

wikiauto_wrap_policy
# auto_wrap_policy ## Определение Параметр FSDP, определяющий, какие модули модели оборачивать в отдельные FSDP-юниты для распределенного обучения. ## Где встречается…
wikiFSDP
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[473…
answerКак работает packing для variable-length sequences в FSDP?
…Как packing работает в контексте FSDP **[[Вики/FSDP\|FSDP]] ([[Вики/FSDP\|Fully Sharded Data Parallelism]])** — техника распределённого обучения, при которой…
answerКак работает FSDP (Fully Sharded Data Parallel) в PyTorch?
…Как работает FSDP: общая идея [[Вики/FSDP\|FSDP]] делит [[Вики/model\|модель]] на шарды (обычно по слоям). Каждый [[Вики/GPU…
wikiShardingStrategy
# ShardingStrategy ## Определение Параметр конфигурации FSDP, определяющий степень шардирования модели: FULL_SHARD, SHARD_GRAD_OP, NO_SHARD. ## Где встречается - [[471. Как…
wikiFullyShardedDataParallel
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] ## Навигация…
wiki_set_sequence_lengths
# _set_sequence_lengths ## Определение Внутренний метод FSDP, хранящий длины исходных последовательностей в упаковке для корректного обратного прохода при обучении с…
wiki_set_padded_sequence
# _set_padded_sequence ## Определение Внутренний метод FSDP, помечающий тензор как упакованный (padded) для корректной обработки градиентов и коммуникации между шардами…
wikimax_position_embeddings
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] ## Навигация…
wikicollate function
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] ## Навигация…
wikivariable-length sequences
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[800…
wikiCPU offload
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[244…
wikipacking sequences
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[738…
wikibinning
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[711…
wikiDistributed Data Parallel
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[472…
wikiDataLoader
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[56…
wikiAllGather
# AllGather ## Определение Коллективная коммуникационная операция, при которой каждый узел рассылает свои данные всем остальным; используется в FSDP и ZeRO-3…
wikiReduceScatter
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] ## Навигация…
wikiModel parallelism
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[480…
wikigradient accumulation
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[480…
wikisharding
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[851…
wikipadded sequences
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[704…
wikiZeRO
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[478…
wikiLoss
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[675…
wikiInfiniBand
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[Практика…
wikiмаскировка
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[485…
wikioptimizer state
# optimizer state ## Определение Дополнительные данные, хранимые оптимизатором (например, моменты в Adam), которые шардятся в ZeRO-1/FSDP для экономии памяти…
wikiDeepSpeed
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[473…
wikiAllReduce
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[478…
wikiPipeline parallelism
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[709…
answerЧто такое 3D parallelism (data + tensor + pipeline)?
…используется 3D parallelism с разбивкой на 8 узлов по 8 GPU + FSDP. Без 3D parallelism обучение модели размером 175B на…
answerЧто такое DeepSpeed ZeRO-Offload и когда он полезен?
…Как работает gradient checkpointing в DeepSpeed\|465]] | Что такое FSDP и как он соотносится с ZeRO? | | [[466. Что такое curriculum…
wikiDistilGPT2
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[484…
wikimixed precision training
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[472…
wikiTensor parallelism
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[485…
answerЧто такое activation offloading и когда он нужен?
…Как работает packing для variable-length sequences в FSDP\|476]] | Distributed training (общие принципы) | --- ## Навигация (Obsidian) - Предыдущий: [[478. Как работает…
wikicontinuous batching
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[544…
answerКакие фреймворки для fine-tuning вы используете?
…поддерживает [[Вики/DeepSpeed\|DeepSpeed]] ZeRO-2/3, [[Вики/FSDP\|FSDP]], мульти‑[[Вики/GPU\|GPU]], облачные очереди ([[Вики/SLURM\|SLURM]], RunPod…
answerЧто такое torch.compile и как он ускоряет training?
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch\|471]] | Смешанная точность (AMP) и её влияние на скорость | | [[472. Почему…
answerКак работает NVLink Switch System на DGX H100?
…Что такое ONNX Runtime и когда он выгоден для LLM\|320]] | FSDP и его зависимость от interconnect | --- ## 12. Навигация (Obsidian…
answerКак работает Mixed Precision Training (FP16 + FP32 master веса)?
…Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Distributed Training (DDP, FSDP) | | [[471. Как работает FSDP (Fully Sharded…
answerПочему training 70B модели требует optimizer sharding (ZeRO-3)?
…Альтернативы ZeRO-3 - **FSDP (Fully Sharded Data Parallel)** — реализация PyTorch, аналогичная ZeRO-3. Позволяет шардировать параметры, градиенты и оптимизатор. FSDP…
answerЧто такое curriculum learning на уровне данных для LLM?
…Как работает packing для variable-length sequences в FSDP\|476]] | Data mixing strategies для LLM | | [[478. Как работает distributed optimizer…
answerПочему tokenizer влияет на стоимость training?
…Как работает packing для variable-length sequences в FSDP\|476]] | Почему fine-tuning стоит дешевле, чем pre-training? | | [[480. Как…
answerПочему gradient accumulation эквивалентен большому batch с точки зрения оптимизации?
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch\|471]] | Сравнение методов уменьшения памяти при обучении | | [[473. Что такое torch…
answerПочему small batch size (<32) ухудшает training стабильность?
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch\|471]] | Почему warmup важен при обучении LLM? | | [[472. Почему gradient accumulation…
answerЧто такое NCCL и зачем он для tensor parallelism?
…TP комбинируется с Data Parallelism. **Пример кода с PyTorch FSDP + TP (упрощённо):** ```python # Инициализация NCCL torch.distributed.init_process_group…
answerКак работает distributed optimizer в PyTorch (torch.distributed.optim)?
…Что такое LoRA для training (инференс уже знаем)\|481]] | Сравнение FSDP и ZeroRedundancyOptimizer | | [[482. Как работает QLoRA (Quantized LoRA) для…
answerКак работает FlashAttention для training (не только inference)?
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch\|471]] | KV Cache: что такое и как работает в inference | | [[472…
answerКак работает gradient checkpointing в DeepSpeed?
…Что такое activation recomputation (checkpointing) и зачем оно нужно\|463]] | В чём разница между ZeRO и FSDP? | | [[464. Почему BF16…