Поиск

  • answerПочему BF16 лучше FP16 для training?

    …Преимущества BF16: широкий диапазон без масштабирования [[Вики/BF16\|BF16]] наследует диапазон [[Вики/FP32\|FP32]], поэтому: - Нет [[Вики/overflow\|overflow]] для…

  • wikiunderflow

    …Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…

  • wikiDynamic range

    # Dynamic range ## Определение Разница между минимальным и максимальным представимым числом в числовом формате; критична для точности обучения, например, у BF16

  • wikiMachine epsilon

    …Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiBF16

    # BF16 ## Определение 16-битный формат с плавающей точкой с 8-битной экспонентой (как у FP32), устойчивый к переполнению и предпочтительный…

  • wikigradient scaling

    …Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…

  • answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?

    …Но для обучения с нуля лучше [[Вики/BF16\|BF16]]. **Пример кода ([[Вики/PyTorch\|PyTorch]]):** ```python import torch model = model.half…

  • wikiFP32 master weights

    …Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…

  • wikiTPU

    …Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…

  • wikimixed precision training

    # mixed precision training ## Определение Mixed precision training — техника использования разных форматов чисел (FP16, BF16, FP32) для ускорения обучения и инференса…

  • wikioverflow

    …Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…

  • wikiQuantization-aware training

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikiPost-training quantization

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikiTransformer Engine

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikiTensor Cores

    …Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…

  • wikiGGUF

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikitorch.cuda.amp.autocast

    # torch.cuda.amp.autocast ## Определение Контекстный менеджер PyTorch, автоматически выбирающий формат FP16/BF16 для выполнения операций forward в рамках mixed…

  • wikiFP32

    …Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…

  • wikitraining

    # training ## Определение Процесс оптимизации параметров модели на обучающих данных, включающий выбор формата чисел (BF16, FP8) и использование аппаратных ускорителей. ## Где…

  • wikiA100

    …Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[706. Что такое TMA (Tensor Memory Accelerator…

  • answerКак работают Tensor Cores в H100/B200 и для чего они нужны?

    …входные матрицы могут быть в [[Вики/FP16\|FP16]] или [[Вики/BF16\|BF16]], а накопление ведётся в [[Вики/FP32\|FP32]]. Это…

  • wikillama.cpp

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikibitsandbytes

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikiGPTQ

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikiAWQ

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • answerКак работает Mixed Precision Training (FP16 + FP32 master веса)?

    …Помогает: - Использование [[Вики/mixed precision training\|BF16]] (bfloat16) – имеет такой же динамический диапазон, как FP32, но меньшую точность. - Gradient checkpointing…

  • wikiGPU

    …Ключевой аппаратный ресурс для LLM, поддерживает форматы FP16, BF16, FP8 и тензорный параллелизм. ## Где встречается - [[78. Какие LLM для русского…

  • answerКак работает FP8 quantization на H100 (Transformer Engine)?

    …После операции матричного умножения обратное [[Вики/Scale\|масштабирование]] (деление на [[Вики/scaling factors\|scaling factor]]) возвращает результат в FP16/BF16

  • answerЧто такое activation recomputation (checkpointing) и зачем оно нужно?

    …Комбинируйте с mixed precision — FP16/BF16 уменьшает размер активаций, checkpointing ещё больше. 5. Мониторьте использование памяти с помощью `torch.cuda…

  • answerПочему training 70B модели требует optimizer sharding (ZeRO-3)?

    …Используют [[Вики/gradient accumulation\|gradient accumulation]]. - **Mixed precision:** обязательно использование FP16/BF16 для экономии памяти. Adam states хранятся в FP32…

  • answerZeRO-1 vs ZeRO-2 vs ZeRO-3: что и когда использовать?

    …ZeRO можно комбинировать с MP для ещё больших моделей. - **Mixed Precision Training (FP16/BF16)** — уменьшает размер весов и градиентов, что…

  • answerКак работает gradient checkpointing в DeepSpeed?

    …Почему BF16 лучше FP16 для training\|464]] | Как работает mixed precision training (FP16/BF16) в DeepSpeed? | | [[466. Что такое curriculum…

  • answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?

    …Q, K, V могут быть в FP8, а softmax и накопление — в FP16/BF16 для точности. Это даёт дополнительное ускорение…

  • answerЧто такое activation offloading и когда он нужен?

    …Не снижает память активаций, но позволяет увеличить эффективный batch size. **Mixed precision training** (fp16/bf16) — уменьшает размер активаций вдвое по…

  • answerКак работает QLoRA (Quantized LoRA) для training?

    …Добавление LoRA-адаптеров в [[Вики/FP16\|FP16]] (или [[Вики/BF16\|BF16]]) к выбранным слоям (обычно к [[Вики/Attention\|attention]] проекциям…

  • answerКак работает FSDP (Fully Sharded Data Parallel) в PyTorch?

    …можно включить `[[Вики/PyTorch\|torch]].[[Вики/BF16\|bfloat16]]` для экономии памяти. --- ## 8. Преимущества и недостатки Преимущества - Резкое снижение потребления памяти…

  • answerКак работает FlashAttention-3 математически?

    …Экспериментально показано, что для большинства моделей (BERT, Llama) точность не падает, а производительность удваивается относительно FA2 в BF16. ## 7. Псевдокод…

  • answerКак работает инициализация весов в LLM (Xavier, Kaiming, почему важна)?

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать\|666]] | Оптимизаторы (Adam, AdamW) и их взаимодействие с инициализацией | | [[667…

  • answerКак работает обратное распространение (backpropagation) в трансформере?

    …mixed precision и checkpointing **Mixed precision training** (FP16/BF16): градиенты вычисляются в половинной точности, но накапливаются в FP32 для стабильности…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Fine-tune QLoRA на 1 GPU

    …steps=10, evaluation_strategy="steps", fp16=False, # используем bf16, если поддерживается bf16=True, optim="paged_adamw_8bit", # экономит память gradient…

  • answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?

    …поддерживают форматы [[Вики/FP8\|FP8]], [[Вики/FP16\|FP16]], [[Вики/BF16\|BF16]], TF32, [[Вики/8-bit quantization\|INT8]]. Специализированные блоки для…

  • answerКак работает FlashAttention математически (tiling, recomputation, не материализуя S)?

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать\|666]] | Проблема квадратичной сложности attention и пути решения | | [[668. Что…

  • answerКак работает tensor parallelism с FP8 в vLLM?

    …Почему BF16 лучше FP16 для training\|464]] | Как работает prefix caching в vLLM? | --- ## 11. Навигация (Obsidian) - Предыдущий: [[459. Как работает…

  • answerПочему small batch size (<32) ухудшает training стабильность?

    …gradient accumulation + mixed precision (fp16/bf16). - Если loss расходится: уменьшите learning rate, увеличьте accumulation steps, добавьте warmup. - **Мониторинг**: следите за…

  • answerКак вы дебажите низкую GPU utilization (например, 40% на A100)?

    …Почему BF16 лучше FP16 для training\|464]] | Как профилировать multi-GPU инференс с помощью Nsight? | --- ## Навигация (Obsidian) - Предыдущий: [[458. Что…

  • answerЧто такое vanishing / exploding gradients в трансформерах и как их предотвратить?

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать\|666]] | Layer Normalization и его роль | | [[667. Как работает FlashAttention…

  • answerКак работает MoE (Mixture of Experts) внутри LLM (Mixtral, GPT-4)?

    …loss. - Используют [[Вики/mixed precision training\|mixed precision]] (FP16/BF16) для экономии памяти. - Для больших MoE применяют [[Вики/expert parallelism…

  • answerЧто такое LoRA для training (инференс уже знаем)?

    …Mistral 7B]]) в формате [[Вики/FP16\|float16]] или [[Вики/BF16\|bfloat16]]. 2. Заморозить все параметры модели (requires_grad=False). 3…

  • answerЧто такое 3D parallelism (data + tensor + pipeline)?

    …3D parallelism часто комбинируется с [[Вики/mixed precision training\|mixed precision training]] (FP16/BF16) и [[Вики/Checkpoints\|activation checkpointing]] (рекомпьютинг…

  • answerКак работает FlashAttention-3 технически? Чем отличается от FA2?

    …я тензорная ядра** | Ускорение матричных умножений (GEMM) для FP16/BF16/FP8 | Основа для WGMMA | | **TMA (Tensor Memory Accelerator)** | Аппаратный блок…