Поиск

  • wikiDeepSpeed-MoE

    # DeepSpeed-MoE ## Определение Расширение DeepSpeed от Microsoft для expert parallelism и других оптимизаций MoE-моделей, как для обучения, так и…

  • wikiDeepSpeed Pipe

    # DeepSpeed Pipe ## Определение Реализация pipeline parallelism в DeepSpeed, может комбинироваться с ZeRO-3 для уменьшения коммуникаций. ## Где встречается - [[462. ZeRO…

  • wikiDeepSpeed Inference

    # DeepSpeed Inference ## Определение Компонент DeepSpeed для автоматического выбора tensor/pipeline parallelism на основе профилирования для ускорения инференса. ## Где встречается - [[203…

  • wikiDeepSpeed-Ulysses

    # DeepSpeed-Ulysses ## Определение Метод sequence parallelism на уровне attention heads, использующий all-to-all для эффективной работы с длинными контекстами…

  • wikiDeepSpeed

    …Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[471. Как работает FSDP (Fully Sharded Data…

  • wikiZeRO-Offload

    …Что такое DeepSpeed ZeRO-Offload и когда он полезен|470. Что такое DeepSpeed ZeRO-Offload и когда он полезен]] - [[800…

  • answerКак работает gradient checkpointing в DeepSpeed?

    …Механизм работы gradient checkpointing в DeepSpeed [[Вики/DeepSpeed\|DeepSpeed]] реализует [[Вики/Checkpoints\|gradient checkpointing]] через [[Вики/chunking\|разбиение]] модели на…

  • wikiactivation offloading

    …Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…

  • wikiNVMe Offload

    …Что такое DeepSpeed ZeRO-Offload и когда он полезен|470. Что такое DeepSpeed ZeRO-Offload и когда он полезен]] ## Навигация…

  • wikiZeRO-Infinity

    …Что такое DeepSpeed ZeRO-Offload и когда он полезен|470. Что такое DeepSpeed ZeRO-Offload и когда он полезен]] ## Навигация…

  • wikiZeRO

    …Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[470. Что такое DeepSpeed ZeRO-Offload и…

  • wikiRedis pipeline

    …Что такое DeepSpeed ZeRO-Offload и когда он полезен|470. Что такое DeepSpeed ZeRO-Offload и когда он полезен]] - [[478…

  • answerZeRO-1 vs ZeRO-2 vs ZeRO-3: что и когда использовать?

    …Установить DeepSpeed: `pip install deepspeed`. 2. Написать скрипт обучения на основе `transformers.Trainer` с интеграцией DeepSpeed. 3. Создать три конфигурационных…

  • wikioptimizer state

    …Что такое DeepSpeed ZeRO-Offload и когда он полезен|470. Что такое DeepSpeed ZeRO-Offload и когда он полезен]] - [[800…

  • wikiAutograd

    …Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[730. Что такое LLM для symbolic regression…

  • answerЧто такое DeepSpeed ZeRO-Offload и когда он полезен?

    …Установить DeepSpeed: `pip install deepspeed`. 2. Написать скрипт обучения с использованием `deepspeed.initialize`. 3. Создать конфиг ZeRO-Offload (stage 2…

  • answerКак работает FSDP (Fully Sharded Data Parallel) в PyTorch?

    …Сравнение с DeepSpeed ZeRO-3 | Аспект | DeepSpeed ZeRO-3 | FSDP (PyTorch) | |--------|------------------|----------------| | Происхождение | Сторонняя библиотека | Встроен в PyTorch (с 1.11…

  • wikinum_checkpoints

    # num_checkpoints ## Определение Параметр DeepSpeed, определяющий количество чанков (фрагментов модели) при градиентном чекпоинтинге; снижает потребление памяти с O(layers) до…

  • wikiFSDP

    …Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[471. Как работает FSDP (Fully Sharded Data…

  • answerTensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса?

    …оптимизирует TP и PP, поддерживает in-flight batching. - [[Вики/DeepSpeed Inference\|DeepSpeed Inference]]: автоматически выбирает TP/PP на основе профилирования…

  • wikiAdam optimizer

    …Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[468. Почему small batch size (32) ухудшает…

  • wikimixed precision training

    …Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[468. Почему small batch size (32) ухудшает…

  • wikiCheckpoints

    …Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[467. Что такое packing sequences и зачем…

  • answerКакие фреймворки для fine-tuning вы используете?

    …поддерживает [[Вики/DeepSpeed\|DeepSpeed]] ZeRO-2/3, [[Вики/FSDP\|FSDP]], мульти‑[[Вики/GPU\|GPU]], облачные очереди ([[Вики/SLURM\|SLURM]], RunPod…

  • answerПочему training 70B модели требует optimizer sharding (ZeRO-3)?

    …оценка памяти с помощью DeepSpeed ```python import deepspeed import torch from transformers import AutoModelForCausalLM # Загружаем модель 70B (например, LLaMA-70B…

  • wikiPipeline parallelism

    …Как работает gradient checkpointing в DeepSpeed|465. Как работает gradient checkpointing в DeepSpeed]] - [[471. Как работает FSDP (Fully Sharded Data…

  • answerКак работает distributed optimizer в PyTorch (torch.distributed.optim)?

    …Шардирование состояния оптимизатора **[[Вики/ZeRO\|ZeRO]] ([[Вики/ZeRO\|Zero Redundancy Optimizer]])** — это техника из библиотеки [[Вики/DeepSpeed\|DeepSpeed]], адаптированная в…

  • answerЧто такое 3D parallelism (data + tensor + pipeline)?

    …Установить `deepspeed` и `transformers`. 2. Написать конфиг DeepSpeed: `zero_optimization.stage=2`, `tensor_parallel.size=2` (если поддерживается) или через…

  • answerЧто такое torch.compile и как он ускоряет training?

    …Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Оптимизация памяти при обучении (градиентный чекпоинтинг, аккумуляция градиентов) | | [[471. Как…

  • answerЧто такое expert parallelism для MoE моделей (Mixtral)?

    …Реализации и инструменты | Инструмент / фреймворк | Описание | |------------------------|----------| | [[Вики/DeepSpeed-MoE\|DeepSpeed-MoE]] (Microsoft) | Расширение DeepSpeed, поддерживающее expert parallelism, балансировку, capacity factor…

  • wikiTensor parallelism

    …Что такое DeepSpeed ZeRO-Offload и когда он полезен|470. Что такое DeepSpeed ZeRO-Offload и когда он полезен]] - [[471…

  • answerЧто такое activation offloading и когда он нужен?

    …gpu, grad_output) ``` На практике используют готовые библиотеки: - [[Вики/DeepSpeed\|DeepSpeed]] — параметр `activation_offloading` в конфиге ZeRO-3 - [[Вики/Fairscale…

  • answerЧто такое curriculum learning для LLM и как его реализовать?

    …Как работает gradient checkpointing в DeepSpeed\|465]] | Как обучать LLM с длинным контекстом? | | [[467. Что такое packing sequences и зачем…

  • answerЧто такое pipeline parallelism и проблема pipeline bubbles?

    …Профилирование и balance-aware partition (например, с помощью `torch.distributed.pipeline` или DeepSpeed) обязательны. ## 8. Проблема дисбаланса стадий и её…

  • answerКакие методы fine-tuning вы знаете и какой используете чаще всего?

    …Простота Единый [[Вики/API\|API]] ([[Вики/Hugging Face PEFT\|Hugging Face PEFT]]), легко комбинировать с другими техниками (например, [[Вики/DeepSpeed

  • answerКак работает sequence parallelism в контексте LLM?

    …внутри GPU — tiling, между GPU — ring | Ещё более эффективное использование HBM и bandwidth | | [[Вики/DeepSpeed-Ulysses\|DeepSpeed-Ulysses]] | Разрезает длину…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать latent reasoning (COCONUT)

    …Трансформеры | Hugging Face Transformers | Базовая архитектура, токенизатор | | Оптимизация | BitsAndBytes, DeepSpeed | Экономия памяти | | Подсчёт FLOPs | `thop` (pytorch-OpCounter) | Оценка вычислительной сложности…

  • answerКак вы проверяете, что RLHF не сломал базовые способности модели?

    …Инструменты и библиотеки | Инструмент | Назначение | |------------|------------| | HuggingFace Transformers + TRL | Реализация PPO, SFT, evaluation | | [[Вики/DeepSpeed\|DeepSpeed]] | Оптимизация памяти для больших моделей…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить expert parallelism для Mixtral

    …Использовать `deepseed` / `inference` для expert parallelism: - Установить `deepseed` (deepseed‑moe) - Запуск через `deepspeed --num_gpus 4 inference.py` 5. Провести…

  • answerЧто такое activation recomputation (checkpointing) и зачем оно нужно?

    …Как работает gradient checkpointing в DeepSpeed\|465]] | Как оптимизировать память при обучении LLM с длинным контекстом? | | [[470. Что такое DeepSpeed

  • answerКак работает Mixed Precision Training (FP16 + FP32 master веса)?

    …Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Distributed Training (DDP, FSDP) | | [[471. Как работает FSDP (Fully Sharded…

  • answerКак вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?

    …production. - **TGI (Text Generation Inference)** — от Hugging Face. - [[Вики/DeepSpeed\|DeepSpeed]] — для оптимизации памяти. - [[Вики/ncu\|NVIDIA Nsight Compute]] — для…

  • answerКак вы разворачиваете LLM в production (self-hosted)?

    …ускорение) | Сложность компиляции, привязка к hardware, требуется NVIDIA GPU | | **DeepSpeed (DeepSpeed-MII / Inference)** | Microsoft | Zero-оптимизация, инференс через MII | Хорош…

  • answerЧто такое memory-efficient attention для long context на 8x H100?

    …Может быть эффективнее all-to-all при большом числе GPU. - [[Вики/DeepSpeed-Ulysses\|DeepSpeed Ulysses]] — использует all-to-all для…

  • answerПочему BF16 лучше FP16 для training?

    …Как работает gradient checkpointing в DeepSpeed\|465]] - Индекс: [[00. Индекс разборов]]

  • answerПочему small batch size (<32) ухудшает training стабильность?

    …Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Как выбрать learning rate для заданного batch size? | | [[471. Как…

  • answerПочему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?

    …для трансформеров разработаны эффективные методы (ZeRO, DeepSpeed, Megatron-LM), позволяющие обучать модели с сотнями миллиардов параметров. Для SSM таких оптимизаций…

  • answerЧто такое packing sequences и зачем он нужен?

    …Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Какие существуют стратегии bucketing для батчей? | | [[472. Почему gradient accumulation…

  • answerПочему tokenizer влияет на стоимость training?

    …Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Архитектура Transformer (основы FLOPs) | | [[472. Почему gradient accumulation эквивалентен большому…

  • answerКак работает FlashAttention для training (не только inference)?

    …Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Архитектура механизма внимания в трансформерах (Q,K,V, softmax) | | [[471…