Поиск

wikimixed precision training
# mixed precision training ## Определение Mixed precision training — техника использования разных форматов чисел (FP16, BF16, FP32) для ускорения обучения и инференса…
wikitorch.cuda.amp.autocast
…Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] ## Навигация…
wikidynamic loss scaling
…Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] ## Навигация…
wikigradient scaling
…Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] - [[485…
wikioverflow
…Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] - [[485…
wikiunderflow
…Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] - [[666…
wikiFP32 master weights
…Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] - [[800…
wikiSGD
…Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] - [[659…
wikiFP32
…Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] - [[705…
wikiScale
…Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] - [[654…
answerКак работает Mixed Precision Training (FP16 + FP32 master веса)?
…Как работает Mixed Precision Training (FP16 + FP32 master веса)? ## Краткий тезис precision precision precision precision precision precision training|Mixed Precision…
answerПочему BF16 лучше FP16 для training?
…На практике оптимальным является смешанное обучение (precision precision precision training|mixed precision) с использованием BF16 для прямого и обратного проходов…
answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…Выбор зависит от задачи: [[Вики/training\|обучение]] → [[Вики/mixed precision training\|BF16]], [[Вики/inference\|инференс]] на [[Вики/GPU\|GPU]] → FP16…
answerКак вы дебажите training instability (loss spikes, divergence)?
…mixed precision и loss scaling При обучении LLM (70B+) часто используют [[Вики/mixed precision training\|mixed precision]] (fp16 + fp32). Проблемы…
wikiAdam optimizer
…Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] - [[478…
wikiAdamW
…Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] - [[485…
wikiQLoRA
…Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] - [[481…
answerЧто такое DeepSpeed ZeRO-Offload и когда он полезен?
…хранит два момента (m и v) — ещё `4N` байт (в FP32) или `2N` (в FP16 precision precision precision training|mixed…
answerПочему training 70B модели требует optimizer sharding (ZeRO-3)?
…Реалистичный расчёт для [[Вики/mixed precision training\|mixed precision]] ([[Вики/FP16\|FP16]] forward/backward, [[Вики/FP32 master weights\|FP32 master…
wikiTensor Cores
…Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] - [[666…
answerКак работают Tensor Cores в H100/B200 и для чего они нужны?
…С тех пор каждое новое поколение добавляло поддержку новых типов данных ([[Вики/Quantization\|FP16]], [[Вики/mixed precision training\|BF16]], [[Вики…
wikiCheckpoints
…Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] - [[470…
wikiLoRA
…Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] - [[481…
answerЧто такое activation recomputation (checkpointing) и зачем оно нужно?
…Почему training 70B модели требует optimizer sharding (ZeRO-3)\|461]] | Как работает mixed precision training (FP16/BF16)? | | [[462. ZeRO-1…
answerПочему small batch size (<32) ухудшает training стабильность?
…Как работает Mixed Precision Training (FP16 + FP32 master веса)\|469]] | Как gradient accumulation влияет на эффективность обучения? | | [[470. Что такое…
answerКак работает FSDP (Fully Sharded Data Parallel) в PyTorch?
…определяет, какие модули оборачивать в отдельные FSDP-юниты. - `[[Вики/mixed precision training\|mixed_precision]]`: можно включить `[[Вики/PyTorch\|torch]].[[Вики…
answerКак работает обратное распространение (backpropagation) в трансформере?
…mixed precision и checkpointing **Mixed precision training** (FP16/BF16): градиенты вычисляются в половинной точности, но накапливаются в FP32 для стабильности…
answerЧто такое 3D parallelism (data + tensor + pipeline)?
…3D parallelism часто комбинируется с [[Вики/mixed precision training\|mixed precision training]] (FP16/BF16) и [[Вики/Checkpoints\|activation checkpointing]] (рекомпьютинг…
answerЧто такое activation offloading и когда он нужен?
…Что такое LoRA для training (инференс уже знаем)\|481]] | Mixed precision training (fp16/bf16) | | [[482. Как работает QLoRA (Quantized LoRA…
answerZeRO-1 vs ZeRO-2 vs ZeRO-3: что и когда использовать?
…ZeRO можно комбинировать с MP для ещё больших моделей. - **Mixed Precision Training (FP16/BF16)** — уменьшает размер весов и градиентов, что…
answerКак работает MoE (Mixture of Experts) внутри LLM (Mixtral, GPT-4)?
…Обучение и инференс MoE [[Вики/training\|Обучение]] - Стандартный backpropagation, но с учётом auxiliary loss. - Используют [[Вики/mixed precision training\|mixed…
answerКак работает gradient checkpointing в DeepSpeed?
…Почему BF16 лучше FP16 для training\|464]] | Как работает mixed precision training (FP16/BF16) в DeepSpeed? | | [[466. Что такое curriculum…
answerКак вы оптимизируете embedding генерацию для большого количества документов?
…2. **Использование [[Вики/mixed precision training\|mixed precision]] ([[Вики/FP16\|FP16]])**: уменьшает [[Вики/memory footprint\|использование памяти]] и ускоряет вычисления…
answerHyena: как заменить attention на свертки, сохранив качество?
…Для длинных последовательностей (>16k) рекомендуется использовать [[Вики/mixed precision training\|mixed precision training]] (обучение со смешанной точностью) для экономии памяти…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать GPU utilization падение
…синхронизация | | 97 | Оптимизация batch size и памяти | | 123 | Mixed Precision Training (AMP) | | 201 | Kernel launch overhead (CPU side) | | 345 | Уменьшение…
answerПочему gradient accumulation эквивалентен большому batch с точки зрения оптимизации?
…Комбинируется с gradient accumulation для ещё большего снижения потребления памяти. - **Mixed precision training** (FP16/AMP) — ускоряет вычисления и уменьшает память…
answerЧто такое gradient clipping и зачем он нужен при обучении LLM?
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)\|665]] | Mixed precision training и loss scaling | --- ## Навигация (Obsidian) - Предыдущий…
answerКак работает FP8 quantization на H100 (Transformer Engine)?
…Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM\|310]] | Mixed precision training | | [[311. Что такое CUDA graphs…
answerКак работает selective activation recomputation?
…Что такое benchmark chasing и почему это опасно\|510]] | Смешанная точность (mixed precision) | --- ## Навигация (Obsidian) - Предыдущий: [[479. Что такое activation…
answerКак работает Whisper (architecture, tokenization, training) для ASR?
…Как вы защищаете LLM от градиентных атак (white-box jailbreak)\|355]] | Как обучать большие модели (data parallelism, mixed precision)? | | [[360…
answerКак работает связь между SGD и Adam? Почему Adam лучше для LLM?
…Как работает dropout и зачем он нужен в LLM (regularization)\|675]] | Mixed precision training (FP16) — совместимость с Adam | --- ## 10. Навигация…
answerКак работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100?
…базовый формат для A и B. - [[Вики/mixed precision training\|BF16]]: аналогичен [[Вики/FP16\|FP16]], но с большим диапазоном. - **[[Вики…
answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
…Пример уровня `q4_K_M` — 4‑битная [[Вики/mixed precision training\|смешанная точность]] (большинство весов — 4 бита, некоторые — 6 бит…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать selective scan (Mamba)
…recurrent operations | | 415 | Profiling CUDA kernels (Nsight) | | 520 | Mixed precision training with custom kernels | | 627 | Numerical stability of exp() in…
answerЧто такое "lost in the middle" и как это связано с attention sink?
…3.5-Turbo]], [[Вики/Transformer\|Llama 2]], [[Вики/mixed precision training\|MPT]]) на задаче [[Вики/multi-document question answering\|multi…
answerКак работает FlashAttention-3 технически? Чем отличается от FA2?
…на элемент → 1 байт). - Технические детали - Используется [[Вики/mixed precision training\|смешанная точность]]: [[Вики/FP8\|FP8]] для Q, K, V…
answerЧто такое streaming LLM для бесконечного контекста (техника rollback)?
…Для [[Вики/Relative Position Encoding\|ALiBi]] (используется в [[Вики/mixed precision training\|MPT]], [[Вики/Bloom filter\|Bloom]]) позиционные смещения линейны…
wikiИндекс терминов
…CK]] - [[Вики/mixed batch|mixed batch]] - [[Вики/mixed precision training|mixed precision training]] - [[Вики/mixed-modal|mixed-modal]] - [[Вики/Mixtral…
indexИндекс разборов
…Как работает Mixed Precision Training (FP16 + FP32 master веса)\|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)?]] - [[470…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Как работает Mixed Precision Training (FP16 + FP32 master веса)?** > _Ответ:_ Master веса в FP32, forward/backward в FP16. Градиенты в…