Поиск
- wikiauto_wrap_policy
# auto_wrap_policy ## Определение Параметр FSDP, определяющий, какие модули модели оборачивать в отдельные FSDP-юниты для распределенного обучения. ## Где встречается…
- wikiFSDP
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[473…
- answerКак работает packing для variable-length sequences в FSDP?
…Как packing работает в контексте FSDP **[[Вики/FSDP\|FSDP]] ([[Вики/FSDP\|Fully Sharded Data Parallelism]])** — техника распределённого обучения, при которой…
- answerКак работает FSDP (Fully Sharded Data Parallel) в PyTorch?
…Как работает FSDP: общая идея [[Вики/FSDP\|FSDP]] делит [[Вики/model\|модель]] на шарды (обычно по слоям). Каждый [[Вики/GPU…
- wikiShardingStrategy
# ShardingStrategy ## Определение Параметр конфигурации FSDP, определяющий степень шардирования модели: FULL_SHARD, SHARD_GRAD_OP, NO_SHARD. ## Где встречается - [[471. Как…
- wikiFullyShardedDataParallel
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] ## Навигация…
- wiki_set_sequence_lengths
# _set_sequence_lengths ## Определение Внутренний метод FSDP, хранящий длины исходных последовательностей в упаковке для корректного обратного прохода при обучении с…
- wiki_set_padded_sequence
# _set_padded_sequence ## Определение Внутренний метод FSDP, помечающий тензор как упакованный (padded) для корректной обработки градиентов и коммуникации между шардами…
- wikimax_position_embeddings
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] ## Навигация…
- wikicollate function
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] ## Навигация…
- wikivariable-length sequences
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[800…
- wikiCPU offload
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[244…
- wikipacking sequences
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[738…
- wikibinning
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[711…
- wikiDistributed Data Parallel
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[472…
- wikiDataLoader
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[56…
- wikiAllGather
# AllGather ## Определение Коллективная коммуникационная операция, при которой каждый узел рассылает свои данные всем остальным; используется в FSDP и ZeRO-3…
- wikiReduceScatter
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] ## Навигация…
- wikiModel parallelism
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[480…
- wikigradient accumulation
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[480…
- wikisharding
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[851…
- wikipadded sequences
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[704…
- wikiZeRO
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[478…
- wikiLoss
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[675…
- wikiInfiniBand
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[Практика…
- wikiмаскировка
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[485…
- wikioptimizer state
# optimizer state ## Определение Дополнительные данные, хранимые оптимизатором (например, моменты в Adam), которые шардятся в ZeRO-1/FSDP для экономии памяти…
- wikiDeepSpeed
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[473…
- wikiAllReduce
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[478…
- wikiPipeline parallelism
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[709…
- answerЧто такое 3D parallelism (data + tensor + pipeline)?
…используется 3D parallelism с разбивкой на 8 узлов по 8 GPU + FSDP. Без 3D parallelism обучение модели размером 175B на…
- answerЧто такое DeepSpeed ZeRO-Offload и когда он полезен?
…Как работает gradient checkpointing в DeepSpeed\|465]] | Что такое FSDP и как он соотносится с ZeRO? | | [[466. Что такое curriculum…
- wikiDistilGPT2
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[484…
- wikimixed precision training
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[472…
- wikiTensor parallelism
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch|471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch]] - [[485…
- answerЧто такое activation offloading и когда он нужен?
…Как работает packing для variable-length sequences в FSDP\|476]] | Distributed training (общие принципы) | --- ## Навигация (Obsidian) - Предыдущий: [[478. Как работает…
- wikicontinuous batching
…Как работает packing для variable-length sequences в FSDP|476. Как работает packing для variable-length sequences в FSDP]] - [[544…
- answerКакие фреймворки для fine-tuning вы используете?
…поддерживает [[Вики/DeepSpeed\|DeepSpeed]] ZeRO-2/3, [[Вики/FSDP\|FSDP]], мульти‑[[Вики/GPU\|GPU]], облачные очереди ([[Вики/SLURM\|SLURM]], RunPod…
- answerЧто такое torch.compile и как он ускоряет training?
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch\|471]] | Смешанная точность (AMP) и её влияние на скорость | | [[472. Почему…
- answerКак работает NVLink Switch System на DGX H100?
…Что такое ONNX Runtime и когда он выгоден для LLM\|320]] | FSDP и его зависимость от interconnect | --- ## 12. Навигация (Obsidian…
- answerКак работает Mixed Precision Training (FP16 + FP32 master веса)?
…Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Distributed Training (DDP, FSDP) | | [[471. Как работает FSDP (Fully Sharded…
- answerПочему training 70B модели требует optimizer sharding (ZeRO-3)?
…Альтернативы ZeRO-3 - **FSDP (Fully Sharded Data Parallel)** — реализация PyTorch, аналогичная ZeRO-3. Позволяет шардировать параметры, градиенты и оптимизатор. FSDP…
- answerЧто такое curriculum learning на уровне данных для LLM?
…Как работает packing для variable-length sequences в FSDP\|476]] | Data mixing strategies для LLM | | [[478. Как работает distributed optimizer…
- answerПочему tokenizer влияет на стоимость training?
…Как работает packing для variable-length sequences в FSDP\|476]] | Почему fine-tuning стоит дешевле, чем pre-training? | | [[480. Как…
- answerПочему gradient accumulation эквивалентен большому batch с точки зрения оптимизации?
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch\|471]] | Сравнение методов уменьшения памяти при обучении | | [[473. Что такое torch…
- answerПочему small batch size (<32) ухудшает training стабильность?
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch\|471]] | Почему warmup важен при обучении LLM? | | [[472. Почему gradient accumulation…
- answerЧто такое NCCL и зачем он для tensor parallelism?
…TP комбинируется с Data Parallelism. **Пример кода с PyTorch FSDP + TP (упрощённо):** ```python # Инициализация NCCL torch.distributed.init_process_group…
- answerКак работает distributed optimizer в PyTorch (torch.distributed.optim)?
…Что такое LoRA для training (инференс уже знаем)\|481]] | Сравнение FSDP и ZeroRedundancyOptimizer | | [[482. Как работает QLoRA (Quantized LoRA) для…
- answerКак работает FlashAttention для training (не только inference)?
…Как работает FSDP (Fully Sharded Data Parallel) в PyTorch\|471]] | KV Cache: что такое и как работает в inference | | [[472…
- answerКак работает gradient checkpointing в DeepSpeed?
…Что такое activation recomputation (checkpointing) и зачем оно нужно\|463]] | В чём разница между ZeRO и FSDP? | | [[464. Почему BF16…