Поиск
- wikiDeepSpeed-MoE
# DeepSpeed-MoE ## Определение Расширение DeepSpeed от Microsoft для expert parallelism и других оптимизаций MoE-моделей, как для обучения, так и…
- wikiDeepSpeed Pipe
# DeepSpeed Pipe ## Определение Реализация pipeline parallelism в DeepSpeed, может комбинироваться с ZeRO-3 для уменьшения коммуникаций. ## Где встречается - [[462. ZeRO…
- wikiDeepSpeed Inference
# DeepSpeed Inference ## Определение Компонент DeepSpeed для автоматического выбора tensor/pipeline parallelism на основе профилирования для ускорения инференса. ## Где встречается - [[203…
- wikiDeepSpeed-Ulysses
# DeepSpeed-Ulysses ## Определение Метод sequence parallelism на уровне attention heads, использующий all-to-all для эффективной работы с длинными контекстами…
- wikiDeepSpeed
…Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[471. Как работает FSDP (Fully Sharded Data…
- wikiZeRO-Offload
…Что такое DeepSpeed ZeRO-Offload и когда он полезен|470. Что такое DeepSpeed ZeRO-Offload и когда он полезен]] - [[800…
- answerКак работает gradient checkpointing в DeepSpeed?
…Механизм работы gradient checkpointing в DeepSpeed [[Вики/DeepSpeed\|DeepSpeed]] реализует [[Вики/Checkpoints\|gradient checkpointing]] через [[Вики/chunking\|разбиение]] модели на…
- wikiactivation offloading
…Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…
- wikiNVMe Offload
…Что такое DeepSpeed ZeRO-Offload и когда он полезен|470. Что такое DeepSpeed ZeRO-Offload и когда он полезен]] ## Навигация…
- wikiZeRO-Infinity
…Что такое DeepSpeed ZeRO-Offload и когда он полезен|470. Что такое DeepSpeed ZeRO-Offload и когда он полезен]] ## Навигация…
- wikiZeRO
…Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[470. Что такое DeepSpeed ZeRO-Offload и…
- wikiRedis pipeline
…Что такое DeepSpeed ZeRO-Offload и когда он полезен|470. Что такое DeepSpeed ZeRO-Offload и когда он полезен]] - [[478…
- answerZeRO-1 vs ZeRO-2 vs ZeRO-3: что и когда использовать?
…Установить DeepSpeed: `pip install deepspeed`. 2. Написать скрипт обучения на основе `transformers.Trainer` с интеграцией DeepSpeed. 3. Создать три конфигурационных…
- wikioptimizer state
…Что такое DeepSpeed ZeRO-Offload и когда он полезен|470. Что такое DeepSpeed ZeRO-Offload и когда он полезен]] - [[800…
- wikiAutograd
…Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[730. Что такое LLM для symbolic regression…
- answerЧто такое DeepSpeed ZeRO-Offload и когда он полезен?
…Установить DeepSpeed: `pip install deepspeed`. 2. Написать скрипт обучения с использованием `deepspeed.initialize`. 3. Создать конфиг ZeRO-Offload (stage 2…
- answerКак работает FSDP (Fully Sharded Data Parallel) в PyTorch?
…Сравнение с DeepSpeed ZeRO-3 | Аспект | DeepSpeed ZeRO-3 | FSDP (PyTorch) | |--------|------------------|----------------| | Происхождение | Сторонняя библиотека | Встроен в PyTorch (с 1.11…
- wikinum_checkpoints
# num_checkpoints ## Определение Параметр DeepSpeed, определяющий количество чанков (фрагментов модели) при градиентном чекпоинтинге; снижает потребление памяти с O(layers) до…
- wikiFSDP
…Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[471. Как работает FSDP (Fully Sharded Data…
- answerTensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса?
…оптимизирует TP и PP, поддерживает in-flight batching. - [[Вики/DeepSpeed Inference\|DeepSpeed Inference]]: автоматически выбирает TP/PP на основе профилирования…
- wikiAdam optimizer
…Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[468. Почему small batch size (32) ухудшает…
- wikimixed precision training
…Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[468. Почему small batch size (32) ухудшает…
- wikiCheckpoints
…Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[467. Что такое packing sequences и зачем…
- answerКакие фреймворки для fine-tuning вы используете?
…поддерживает [[Вики/DeepSpeed\|DeepSpeed]] ZeRO-2/3, [[Вики/FSDP\|FSDP]], мульти‑[[Вики/GPU\|GPU]], облачные очереди ([[Вики/SLURM\|SLURM]], RunPod…
- answerПочему training 70B модели требует optimizer sharding (ZeRO-3)?
…оценка памяти с помощью DeepSpeed ```python import deepspeed import torch from transformers import AutoModelForCausalLM # Загружаем модель 70B (например, LLaMA-70B…
- wikiPipeline parallelism
…Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[471. Как работает FSDP (Fully Sharded Data…
- answerКак работает distributed optimizer в PyTorch (torch.distributed.optim)?
…Шардирование состояния оптимизатора **[[Вики/ZeRO\|ZeRO]] ([[Вики/ZeRO\|Zero Redundancy Optimizer]])** — это техника из библиотеки [[Вики/DeepSpeed\|DeepSpeed]], адаптированная в…
- answerЧто такое 3D parallelism (data + tensor + pipeline)?
…Установить `deepspeed` и `transformers`. 2. Написать конфиг DeepSpeed: `zero_optimization.stage=2`, `tensor_parallel.size=2` (если поддерживается) или через…
- answerЧто такое torch.compile и как он ускоряет training?
…Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Оптимизация памяти при обучении (градиентный чекпоинтинг, аккумуляция градиентов) | | [[471. Как…
- answerЧто такое expert parallelism для MoE моделей (Mixtral)?
…Реализации и инструменты | Инструмент / фреймворк | Описание | |------------------------|----------| | [[Вики/DeepSpeed-MoE\|DeepSpeed-MoE]] (Microsoft) | Расширение DeepSpeed, поддерживающее expert parallelism, балансировку, capacity factor…
- wikiTensor parallelism
…Что такое DeepSpeed ZeRO-Offload и когда он полезен|470. Что такое DeepSpeed ZeRO-Offload и когда он полезен]] - [[471…
- answerЧто такое activation offloading и когда он нужен?
…gpu, grad_output) ``` На практике используют готовые библиотеки: - [[Вики/DeepSpeed\|DeepSpeed]] — параметр `activation_offloading` в конфиге ZeRO-3 - [[Вики/Fairscale…
- answerЧто такое curriculum learning для LLM и как его реализовать?
…Как работает gradient checkpointing в DeepSpeed\|465]] | Как обучать LLM с длинным контекстом? | | [[467. Что такое packing sequences и зачем…
- answerЧто такое pipeline parallelism и проблема pipeline bubbles?
…Профилирование и balance-aware partition (например, с помощью `torch.distributed.pipeline` или DeepSpeed) обязательны. ## 8. Проблема дисбаланса стадий и её…
- answerКакие методы fine-tuning вы знаете и какой используете чаще всего?
…Простота Единый [[Вики/API\|API]] ([[Вики/Hugging Face PEFT\|Hugging Face PEFT]]), легко комбинировать с другими техниками (например, [[Вики/DeepSpeed…
- answerКак работает sequence parallelism в контексте LLM?
…внутри GPU — tiling, между GPU — ring | Ещё более эффективное использование HBM и bandwidth | | [[Вики/DeepSpeed-Ulysses\|DeepSpeed-Ulysses]] | Разрезает длину…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать latent reasoning (COCONUT)
…Трансформеры | Hugging Face Transformers | Базовая архитектура, токенизатор | | Оптимизация | BitsAndBytes, DeepSpeed | Экономия памяти | | Подсчёт FLOPs | `thop` (pytorch-OpCounter) | Оценка вычислительной сложности…
- answerКак вы проверяете, что RLHF не сломал базовые способности модели?
…Инструменты и библиотеки | Инструмент | Назначение | |------------|------------| | HuggingFace Transformers + TRL | Реализация PPO, SFT, evaluation | | [[Вики/DeepSpeed\|DeepSpeed]] | Оптимизация памяти для больших моделей…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить expert parallelism для Mixtral
…Использовать `deepseed` / `inference` для expert parallelism: - Установить `deepseed` (deepseed‑moe) - Запуск через `deepspeed --num_gpus 4 inference.py` 5. Провести…
- answerЧто такое activation recomputation (checkpointing) и зачем оно нужно?
…Как работает gradient checkpointing в DeepSpeed\|465]] | Как оптимизировать память при обучении LLM с длинным контекстом? | | [[470. Что такое DeepSpeed…
- answerКак работает Mixed Precision Training (FP16 + FP32 master веса)?
…Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Distributed Training (DDP, FSDP) | | [[471. Как работает FSDP (Fully Sharded…
- answerКак вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?
…production. - **TGI (Text Generation Inference)** — от Hugging Face. - [[Вики/DeepSpeed\|DeepSpeed]] — для оптимизации памяти. - [[Вики/ncu\|NVIDIA Nsight Compute]] — для…
- answerКак вы разворачиваете LLM в production (self-hosted)?
…ускорение) | Сложность компиляции, привязка к hardware, требуется NVIDIA GPU | | **DeepSpeed (DeepSpeed-MII / Inference)** | Microsoft | Zero-оптимизация, инференс через MII | Хорош…
- answerЧто такое memory-efficient attention для long context на 8x H100?
…Может быть эффективнее all-to-all при большом числе GPU. - [[Вики/DeepSpeed-Ulysses\|DeepSpeed Ulysses]] — использует all-to-all для…
- answerПочему BF16 лучше FP16 для training?
…Как работает gradient checkpointing в DeepSpeed\|465]] - Индекс: [[00. Индекс разборов]]
- answerПочему small batch size (<32) ухудшает training стабильность?
…Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Как выбрать learning rate для заданного batch size? | | [[471. Как…
- answerПочему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?
…для трансформеров разработаны эффективные методы (ZeRO, DeepSpeed, Megatron-LM), позволяющие обучать модели с сотнями миллиардов параметров. Для SSM таких оптимизаций…
- answerЧто такое packing sequences и зачем он нужен?
…Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Какие существуют стратегии bucketing для батчей? | | [[472. Почему gradient accumulation…
- answerПочему tokenizer влияет на стоимость training?
…Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Архитектура Transformer (основы FLOPs) | | [[472. Почему gradient accumulation эквивалентен большому…
- answerКак работает FlashAttention для training (не только inference)?
…Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Архитектура механизма внимания в трансформерах (Q,K,V, softmax) | | [[471…