Поиск

answerПочему BF16 лучше FP16 для training?
…Преимущества BF16: широкий диапазон без масштабирования [[Вики/BF16\|BF16]] наследует диапазон [[Вики/FP32\|FP32]], поэтому: - Нет [[Вики/overflow\|overflow]] для…
wikiunderflow
…Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…
wikiDynamic range
# Dynamic range ## Определение Разница между минимальным и максимальным представимым числом в числовом формате; критична для точности обучения, например, у BF16…
wikiMachine epsilon
…Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
wikiBF16
# BF16 ## Определение 16-битный формат с плавающей точкой с 8-битной экспонентой (как у FP32), устойчивый к переполнению и предпочтительный…
wikigradient scaling
…Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…
answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…Но для обучения с нуля лучше [[Вики/BF16\|BF16]]. **Пример кода ([[Вики/PyTorch\|PyTorch]]):** ```python import torch model = model.half…
wikiFP32 master weights
…Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…
wikiTPU
…Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…
wikimixed precision training
# mixed precision training ## Определение Mixed precision training — техника использования разных форматов чисел (FP16, BF16, FP32) для ускорения обучения и инференса…
wikioverflow
…Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…
wikiQuantization-aware training
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikiPost-training quantization
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikiTransformer Engine
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikiTensor Cores
…Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…
wikiGGUF
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikitorch.cuda.amp.autocast
# torch.cuda.amp.autocast ## Определение Контекстный менеджер PyTorch, автоматически выбирающий формат FP16/BF16 для выполнения операций forward в рамках mixed…
wikiFP32
…Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…
wikitraining
# training ## Определение Процесс оптимизации параметров модели на обучающих данных, включающий выбор формата чисел (BF16, FP8) и использование аппаратных ускорителей. ## Где…
wikiA100
…Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[706. Что такое TMA (Tensor Memory Accelerator…
answerКак работают Tensor Cores в H100/B200 и для чего они нужны?
…входные матрицы могут быть в [[Вики/FP16\|FP16]] или [[Вики/BF16\|BF16]], а накопление ведётся в [[Вики/FP32\|FP32]]. Это…
wikillama.cpp
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikibitsandbytes
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikiGPTQ
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikiAWQ
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
answerКак работает Mixed Precision Training (FP16 + FP32 master веса)?
…Помогает: - Использование [[Вики/mixed precision training\|BF16]] (bfloat16) – имеет такой же динамический диапазон, как FP32, но меньшую точность. - Gradient checkpointing…
wikiGPU
…Ключевой аппаратный ресурс для LLM, поддерживает форматы FP16, BF16, FP8 и тензорный параллелизм. ## Где встречается - [[78. Какие LLM для русского…
answerКак работает FP8 quantization на H100 (Transformer Engine)?
…После операции матричного умножения обратное [[Вики/Scale\|масштабирование]] (деление на [[Вики/scaling factors\|scaling factor]]) возвращает результат в FP16/BF16…
answerЧто такое activation recomputation (checkpointing) и зачем оно нужно?
…Комбинируйте с mixed precision — FP16/BF16 уменьшает размер активаций, checkpointing ещё больше. 5. Мониторьте использование памяти с помощью `torch.cuda…
answerПочему training 70B модели требует optimizer sharding (ZeRO-3)?
…Используют [[Вики/gradient accumulation\|gradient accumulation]]. - **Mixed precision:** обязательно использование FP16/BF16 для экономии памяти. Adam states хранятся в FP32…
answerZeRO-1 vs ZeRO-2 vs ZeRO-3: что и когда использовать?
…ZeRO можно комбинировать с MP для ещё больших моделей. - **Mixed Precision Training (FP16/BF16)** — уменьшает размер весов и градиентов, что…
answerКак работает gradient checkpointing в DeepSpeed?
…Почему BF16 лучше FP16 для training\|464]] | Как работает mixed precision training (FP16/BF16) в DeepSpeed? | | [[466. Что такое curriculum…
answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
…Q, K, V могут быть в FP8, а softmax и накопление — в FP16/BF16 для точности. Это даёт дополнительное ускорение…
answerЧто такое activation offloading и когда он нужен?
…Не снижает память активаций, но позволяет увеличить эффективный batch size. **Mixed precision training** (fp16/bf16) — уменьшает размер активаций вдвое по…
answerКак работает QLoRA (Quantized LoRA) для training?
…Добавление LoRA-адаптеров в [[Вики/FP16\|FP16]] (или [[Вики/BF16\|BF16]]) к выбранным слоям (обычно к [[Вики/Attention\|attention]] проекциям…
answerКак работает FSDP (Fully Sharded Data Parallel) в PyTorch?
…можно включить `[[Вики/PyTorch\|torch]].[[Вики/BF16\|bfloat16]]` для экономии памяти. --- ## 8. Преимущества и недостатки Преимущества - Резкое снижение потребления памяти…
answerКак работает FlashAttention-3 математически?
…Экспериментально показано, что для большинства моделей (BERT, Llama) точность не падает, а производительность удваивается относительно FA2 в BF16. ## 7. Псевдокод…
answerКак работает инициализация весов в LLM (Xavier, Kaiming, почему важна)?
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать\|666]] | Оптимизаторы (Adam, AdamW) и их взаимодействие с инициализацией | | [[667…
answerКак работает обратное распространение (backpropagation) в трансформере?
…mixed precision и checkpointing **Mixed precision training** (FP16/BF16): градиенты вычисляются в половинной точности, но накапливаются в FP32 для стабильности…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Fine-tune QLoRA на 1 GPU
…steps=10, evaluation_strategy="steps", fp16=False, # используем bf16, если поддерживается bf16=True, optim="paged_adamw_8bit", # экономит память gradient…
answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…поддерживают форматы [[Вики/FP8\|FP8]], [[Вики/FP16\|FP16]], [[Вики/BF16\|BF16]], TF32, [[Вики/8-bit quantization\|INT8]]. Специализированные блоки для…
answerКак работает FlashAttention математически (tiling, recomputation, не материализуя S)?
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать\|666]] | Проблема квадратичной сложности attention и пути решения | | [[668. Что…
answerКак работает tensor parallelism с FP8 в vLLM?
…Почему BF16 лучше FP16 для training\|464]] | Как работает prefix caching в vLLM? | --- ## 11. Навигация (Obsidian) - Предыдущий: [[459. Как работает…
answerПочему small batch size (<32) ухудшает training стабильность?
…gradient accumulation + mixed precision (fp16/bf16). - Если loss расходится: уменьшите learning rate, увеличьте accumulation steps, добавьте warmup. - **Мониторинг**: следите за…
answerКак вы дебажите низкую GPU utilization (например, 40% на A100)?
…Почему BF16 лучше FP16 для training\|464]] | Как профилировать multi-GPU инференс с помощью Nsight? | --- ## Навигация (Obsidian) - Предыдущий: [[458. Что…
answerЧто такое vanishing / exploding gradients в трансформерах и как их предотвратить?
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать\|666]] | Layer Normalization и его роль | | [[667. Как работает FlashAttention…
answerКак работает MoE (Mixture of Experts) внутри LLM (Mixtral, GPT-4)?
…loss. - Используют [[Вики/mixed precision training\|mixed precision]] (FP16/BF16) для экономии памяти. - Для больших MoE применяют [[Вики/expert parallelism…
answerЧто такое LoRA для training (инференс уже знаем)?
…Mistral 7B]]) в формате [[Вики/FP16\|float16]] или [[Вики/BF16\|bfloat16]]. 2. Заморозить все параметры модели (requires_grad=False). 3…
answerЧто такое 3D parallelism (data + tensor + pipeline)?
…3D parallelism часто комбинируется с [[Вики/mixed precision training\|mixed precision training]] (FP16/BF16) и [[Вики/Checkpoints\|activation checkpointing]] (рекомпьютинг…
answerКак работает FlashAttention-3 технически? Чем отличается от FA2?
…я тензорная ядра** | Ускорение матричных умножений (GEMM) для FP16/BF16/FP8 | Основа для WGMMA | | **TMA (Tensor Memory Accelerator)** | Аппаратный блок…