Поиск

wikiDeepSpeed-MoE
# DeepSpeed-MoE ## Определение Расширение DeepSpeed от Microsoft для expert parallelism и других оптимизаций MoE-моделей, как для обучения, так и…
wikiDeepSpeed Pipe
# DeepSpeed Pipe ## Определение Реализация pipeline parallelism в DeepSpeed, может комбинироваться с ZeRO-3 для уменьшения коммуникаций. ## Где встречается - [[462. ZeRO…
wikiDeepSpeed Inference
# DeepSpeed Inference ## Определение Компонент DeepSpeed для автоматического выбора tensor/pipeline parallelism на основе профилирования для ускорения инференса. ## Где встречается - [[203…
wikiDeepSpeed-Ulysses
# DeepSpeed-Ulysses ## Определение Метод sequence parallelism на уровне attention heads, использующий all-to-all для эффективной работы с длинными контекстами…
wikiDeepSpeed
…Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[471. Как работает FSDP (Fully Sharded Data…
wikiZeRO-Offload
…Что такое DeepSpeed ZeRO-Offload и когда он полезен|470. Что такое DeepSpeed ZeRO-Offload и когда он полезен]] - [[800…
answerКак работает gradient checkpointing в DeepSpeed?
…Механизм работы gradient checkpointing в DeepSpeed [[Вики/DeepSpeed\|DeepSpeed]] реализует [[Вики/Checkpoints\|gradient checkpointing]] через [[Вики/chunking\|разбиение]] модели на…
wikiactivation offloading
…Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…
wikiNVMe Offload
…Что такое DeepSpeed ZeRO-Offload и когда он полезен|470. Что такое DeepSpeed ZeRO-Offload и когда он полезен]] ## Навигация…
wikiZeRO-Infinity
…Что такое DeepSpeed ZeRO-Offload и когда он полезен|470. Что такое DeepSpeed ZeRO-Offload и когда он полезен]] ## Навигация…
wikiZeRO
…Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[470. Что такое DeepSpeed ZeRO-Offload и…
wikiRedis pipeline
…Что такое DeepSpeed ZeRO-Offload и когда он полезен|470. Что такое DeepSpeed ZeRO-Offload и когда он полезен]] - [[478…
answerZeRO-1 vs ZeRO-2 vs ZeRO-3: что и когда использовать?
…Установить DeepSpeed: `pip install deepspeed`. 2. Написать скрипт обучения на основе `transformers.Trainer` с интеграцией DeepSpeed. 3. Создать три конфигурационных…
wikioptimizer state
…Что такое DeepSpeed ZeRO-Offload и когда он полезен|470. Что такое DeepSpeed ZeRO-Offload и когда он полезен]] - [[800…
wikiAutograd
…Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[730. Что такое LLM для symbolic regression…
answerЧто такое DeepSpeed ZeRO-Offload и когда он полезен?
…Установить DeepSpeed: `pip install deepspeed`. 2. Написать скрипт обучения с использованием `deepspeed.initialize`. 3. Создать конфиг ZeRO-Offload (stage 2…
answerКак работает FSDP (Fully Sharded Data Parallel) в PyTorch?
…Сравнение с DeepSpeed ZeRO-3 | Аспект | DeepSpeed ZeRO-3 | FSDP (PyTorch) | |--------|------------------|----------------| | Происхождение | Сторонняя библиотека | Встроен в PyTorch (с 1.11…
wikinum_checkpoints
# num_checkpoints ## Определение Параметр DeepSpeed, определяющий количество чанков (фрагментов модели) при градиентном чекпоинтинге; снижает потребление памяти с O(layers) до…
wikiFSDP
…Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[471. Как работает FSDP (Fully Sharded Data…
answerTensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса?
…оптимизирует TP и PP, поддерживает in-flight batching. - [[Вики/DeepSpeed Inference\|DeepSpeed Inference]]: автоматически выбирает TP/PP на основе профилирования…
wikiAdam optimizer
…Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[468. Почему small batch size (32) ухудшает…
wikimixed precision training
…Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[468. Почему small batch size (32) ухудшает…
wikiCheckpoints
…Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[467. Что такое packing sequences и зачем…
answerКакие фреймворки для fine-tuning вы используете?
…поддерживает [[Вики/DeepSpeed\|DeepSpeed]] ZeRO-2/3, [[Вики/FSDP\|FSDP]], мульти‑[[Вики/GPU\|GPU]], облачные очереди ([[Вики/SLURM\|SLURM]], RunPod…
answerПочему training 70B модели требует optimizer sharding (ZeRO-3)?
…оценка памяти с помощью DeepSpeed ```python import deepspeed import torch from transformers import AutoModelForCausalLM # Загружаем модель 70B (например, LLaMA-70B…
wikiPipeline parallelism
…Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[471. Как работает FSDP (Fully Sharded Data…
answerКак работает distributed optimizer в PyTorch (torch.distributed.optim)?
…Шардирование состояния оптимизатора **[[Вики/ZeRO\|ZeRO]] ([[Вики/ZeRO\|Zero Redundancy Optimizer]])** — это техника из библиотеки [[Вики/DeepSpeed\|DeepSpeed]], адаптированная в…
answerЧто такое 3D parallelism (data + tensor + pipeline)?
…Установить `deepspeed` и `transformers`. 2. Написать конфиг DeepSpeed: `zero_optimization.stage=2`, `tensor_parallel.size=2` (если поддерживается) или через…
answerЧто такое torch.compile и как он ускоряет training?
…Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Оптимизация памяти при обучении (градиентный чекпоинтинг, аккумуляция градиентов) | | [[471. Как…
answerЧто такое expert parallelism для MoE моделей (Mixtral)?
…Реализации и инструменты | Инструмент / фреймворк | Описание | |------------------------|----------| | [[Вики/DeepSpeed-MoE\|DeepSpeed-MoE]] (Microsoft) | Расширение DeepSpeed, поддерживающее expert parallelism, балансировку, capacity factor…
wikiTensor parallelism
…Что такое DeepSpeed ZeRO-Offload и когда он полезен|470. Что такое DeepSpeed ZeRO-Offload и когда он полезен]] - [[471…
answerЧто такое activation offloading и когда он нужен?
…gpu, grad_output) ``` На практике используют готовые библиотеки: - [[Вики/DeepSpeed\|DeepSpeed]] — параметр `activation_offloading` в конфиге ZeRO-3 - [[Вики/Fairscale…
answerЧто такое curriculum learning для LLM и как его реализовать?
…Как работает gradient checkpointing в DeepSpeed\|465]] | Как обучать LLM с длинным контекстом? | | [[467. Что такое packing sequences и зачем…
answerЧто такое pipeline parallelism и проблема pipeline bubbles?
…Профилирование и balance-aware partition (например, с помощью `torch.distributed.pipeline` или DeepSpeed) обязательны. ## 8. Проблема дисбаланса стадий и её…
answerКакие методы fine-tuning вы знаете и какой используете чаще всего?
…Простота Единый [[Вики/API\|API]] ([[Вики/Hugging Face PEFT\|Hugging Face PEFT]]), легко комбинировать с другими техниками (например, [[Вики/DeepSpeed…
answerКак работает sequence parallelism в контексте LLM?
…внутри GPU — tiling, между GPU — ring | Ещё более эффективное использование HBM и bandwidth | | [[Вики/DeepSpeed-Ulysses\|DeepSpeed-Ulysses]] | Разрезает длину…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать latent reasoning (COCONUT)
…Трансформеры | Hugging Face Transformers | Базовая архитектура, токенизатор | | Оптимизация | BitsAndBytes, DeepSpeed | Экономия памяти | | Подсчёт FLOPs | `thop` (pytorch-OpCounter) | Оценка вычислительной сложности…
answerКак вы проверяете, что RLHF не сломал базовые способности модели?
…Инструменты и библиотеки | Инструмент | Назначение | |------------|------------| | HuggingFace Transformers + TRL | Реализация PPO, SFT, evaluation | | [[Вики/DeepSpeed\|DeepSpeed]] | Оптимизация памяти для больших моделей…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить expert parallelism для Mixtral
…Использовать `deepseed` / `inference` для expert parallelism: - Установить `deepseed` (deepseed‑moe) - Запуск через `deepspeed --num_gpus 4 inference.py` 5. Провести…
answerЧто такое activation recomputation (checkpointing) и зачем оно нужно?
…Как работает gradient checkpointing в DeepSpeed\|465]] | Как оптимизировать память при обучении LLM с длинным контекстом? | | [[470. Что такое DeepSpeed…
answerКак работает Mixed Precision Training (FP16 + FP32 master веса)?
…Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Distributed Training (DDP, FSDP) | | [[471. Как работает FSDP (Fully Sharded…
answerКак вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?
…production. - **TGI (Text Generation Inference)** — от Hugging Face. - [[Вики/DeepSpeed\|DeepSpeed]] — для оптимизации памяти. - [[Вики/ncu\|NVIDIA Nsight Compute]] — для…
answerКак вы разворачиваете LLM в production (self-hosted)?
…ускорение) | Сложность компиляции, привязка к hardware, требуется NVIDIA GPU | | **DeepSpeed (DeepSpeed-MII / Inference)** | Microsoft | Zero-оптимизация, инференс через MII | Хорош…
answerЧто такое memory-efficient attention для long context на 8x H100?
…Может быть эффективнее all-to-all при большом числе GPU. - [[Вики/DeepSpeed-Ulysses\|DeepSpeed Ulysses]] — использует all-to-all для…
answerПочему BF16 лучше FP16 для training?
…Как работает gradient checkpointing в DeepSpeed\|465]] - Индекс: [[00. Индекс разборов]]
answerПочему small batch size (<32) ухудшает training стабильность?
…Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Как выбрать learning rate для заданного batch size? | | [[471. Как…
answerПочему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?
…для трансформеров разработаны эффективные методы (ZeRO, DeepSpeed, Megatron-LM), позволяющие обучать модели с сотнями миллиардов параметров. Для SSM таких оптимизаций…
answerЧто такое packing sequences и зачем он нужен?
…Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Какие существуют стратегии bucketing для батчей? | | [[472. Почему gradient accumulation…
answerПочему tokenizer влияет на стоимость training?
…Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Архитектура Transformer (основы FLOPs) | | [[472. Почему gradient accumulation эквивалентен большому…
answerКак работает FlashAttention для training (не только inference)?
…Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Архитектура механизма внимания в трансформерах (Q,K,V, softmax) | | [[471…