Поиск

wikidistributed training
# distributed training ## Определение Метод обучения модели на нескольких GPU или узлах с использованием параллелизма данных или модели, часто с техниками…
wikiAdam optimizer
…Как работает Mixed Precision Training (FP16 + FP32 master веса)]] - [[478. Как работает distributed optimizer в PyTorch (torch.distributed.optim)|478…
wikiAllGather
…Как работает distributed optimizer в PyTorch (torch.distributed.optim)|478. Как работает distributed optimizer в PyTorch (torch.distributed.optim)]] - [[800…
wikiDistributed Data Parallel
…Почему small batch size (32) ухудшает training стабильность|468. Почему small batch size (32) ухудшает training стабильность]] - [[471. Как работает…
wikiZeRO
…Как работает distributed optimizer в PyTorch (torch.distributed.optim)|478. Как работает distributed optimizer в PyTorch (torch.distributed.optim)]] - [[840…
answerКак работает distributed optimizer в PyTorch (torch.distributed.optim)?
…Пет-проект для закрепления [[Вики/Task\|Задача]] Реализовать [[Вики/distributed training\|distributed training]] для модели [[Вики/BERT-large\|BERT-large…
wikiREST
# REST ## Определение Архитектурный стиль для веб-сервисов, основанный на ресурсах и HTTP-методах; также ReST (Reinforced Self-Training) — алгоритм самодообучения…
wikit-SNE
…Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…
wikiDeepSpeed
…Что такое torch.compile и как он ускоряет training]] - [[478. Как работает distributed optimizer в PyTorch (torch.distributed.optim)|478…
wikiAllReduce
…Как работает distributed optimizer в PyTorch (torch.distributed.optim)|478. Как работает distributed optimizer в PyTorch (torch.distributed.optim)]] - [[642…
answerКак работает FSDP (Fully Sharded Data Parallel) в PyTorch?
…Полные веса собираются только для текущего слоя во время вычислений. - **DDP (Data Parallel|Distributed Data Parallel)** — классический подход, где каждый…
answerПочему gradient accumulation эквивалентен большому batch с точки зрения оптимизации?
…Однако это часто приемлемо, если [[Вики/Memory\|память]] — [[Вики/Bottleneck\|узкое место]]. - [[Вики/distributed training\|Distributed training]] [[Вики/accumulation steps…
answerЧто такое activation offloading и когда он нужен?
…Как работает packing для variable-length sequences в FSDP\|476]] | Distributed training (общие принципы) | --- ## Навигация (Obsidian) - Предыдущий: [[478. Как работает…
answerЧто такое curriculum learning на уровне данных для LLM?
…Как работает distributed optimizer в PyTorch (torch.distributed.optim)\|478]] | Active learning для сбора данных | | [[479. Что такое activation offloading…
answerКак работает Mixed Precision Training (FP16 + FP32 master веса)?
…Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Distributed Training (DDP, FSDP) | | [[471. Как работает FSDP (Fully Sharded…
answerКак работает tensor parallelism для LLM training? Чем отличается от инференса?
…Что вы сделаете в первую неделю на новой работе Senior AI Engineer\|100]] | Distributed Training: общий обзор стратегий | | [[431. Почему…
answerПочему small batch size (<32) ухудшает training стабильность?
…64–1024 (на нескольких [[Вики/GPU\|GPU]]) - **[[Вики/pre-training\|Pre-training]]**: 512–4096 (с использованием [[Вики/Data parallelism\|data…
answerЧто такое NCCL и почему он критичен для multi-GPU инференса?
…Исторически NCCL появилась для ускорения распределённого обучения (training|distributed training), но сегодня она критична и для инференса больших моделей, когда…
answerКак работает packing для variable-length sequences в FSDP?
…Как работает selective activation recomputation\|480]] | Как оптимизировать throughput при distributed training? | | [[482. Как работает QLoRA (Quantized LoRA) для training…
answerЧто такое pipeline parallelism и проблема pipeline bubbles?
…Такой подход отличается от [[Вики/Distributed Data Parallel\|data parallelism]] (копия всей модели на каждом [[Вики/GPU\|GPU]], данные делятся…
answerПочему training 70B модели требует optimizer sharding (ZeRO-3)?
…Почему training 70B модели требует optimizer sharding (ZeRO-3)? ## Краткий тезис Обучение модели с 70 миллиардами параметров (70B) в **FP16…
answerКак работает sequence parallelism в контексте LLM?
…псевдокод ring attention ```python import torch import torch.nn.functional as F from torch.distributed import ring_send, ring_recv…
answerЧто такое 3D parallelism (data + tensor + pipeline)?
…3D parallelism часто комбинируется с [[Вики/mixed precision training\|mixed precision training]] (FP16/BF16) и [[Вики/Checkpoints\|activation checkpointing]] (рекомпьютинг…
indexОглавление
…Как работает distributed optimizer в PyTorch (torch.distributed.optim)\|478. Как работает distributed optimizer в PyTorch (torch.distribu]] - [[Вопросы/Ответы…
indexИндекс разборов
…Как работает distributed optimizer в PyTorch (torch.distributed.optim)\|478. Как работает distributed optimizer в PyTorch (torch.distributed.optim)?]] - [[479…
wikiИндекс терминов
…Distributed task queue|Distributed task queue]] - [[Вики/Distributed tracing|Distributed tracing]] - [[Вики/distributed training|distributed training]] - [[Вики/distributed transactions|distributed…
indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING
…401-430 | Distributed systems deep | 191-205 | | 431-460 | Inference optimization deep | 206-220 | | 461-485 | Training systems | 244 (QLoRA…
answerКак работает model extraction attack и как защититься?
…атака может использовать множество аккаунтов (distributed extraction). ### 5.2 Perturbation ответов (добавление шума) - Semantic perturbation — замена синонимов, небольшое перефразирование в…
answerЧто такое skill libraries для агентов и как их создавать?
…return self._skills.get(name) ``` [[Вики/training\|Обучение]] агента использовать [[Вики/skill\|skill]]: - [[Вики/Few-shot examples\|Few-shot]]: добавляем…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Как работает tensor parallelism для LLM training? Чем отличается от инференса?** > _Ответ:_ При training: градиенты тоже нужно синхронизировать. AllReduce после…
answerКак работает NVLink Switch System на DGX H100?
…NVLink Switch System]] обеспечивает это, позволяя эффективно масштабировать [[Вики/training\|обучение]]. --- ## 3. Архитектура DGX H100: 8 GPU, 4 NVSwitch Внутри…
answerКак работает FlashAttention-3 технически? Чем отличается от FA2?
…Инструкции для асинхронного перемещения данных | Используется совместно с TMA | | Distributed Shared Memory | Разделяемая память большего размера (до 228 КБ) | Позволяет…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить expert parallelism для Mixtral
…экспертов на разных GPU | | Мониторинг | `nvidia-smi`, `tqdm`, `torch.distributed` | Отслеживание памяти и времени | | Тестирование | Python `time`, `torch.cuda.Event…