mixed precision training

Определение

Mixed precision training — техника использования разных форматов чисел (FP16, BF16, FP32) для ускорения обучения и инференса при сохранении точности.

Где встречается

35. Как вы fine-tune embedding модель под свой домен (а не используете готовую)
77. Как вы оптимизируете embedding генерацию для большого количества документов
276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется
303. Как работают Tensor Cores в H100B200 и для чего они нужны
312. Как работает FP8 quantization на H100 (Transformer Engine)
426. Что такое 3D parallelism (data + tensor + pipeline)
431. Почему LLM inference memory-bound, а не compute-bound
444. Почему 4-bit inference иногда медленнее 8-bit
458. Что такое FP8 инференс на H100 (Transformer Engine)
461. Почему training 70B модели требует optimizer sharding (ZeRO-3)
462. ZeRO-1 vs ZeRO-2 vs ZeRO-3 что и когда использовать
463. Что такое activation recomputation (checkpointing) и зачем оно нужно
464. Почему BF16 лучше FP16 для training
465. Как работает gradient checkpointing в DeepSpeed
468. Почему small batch size (32) ухудшает training стабильность
469. Как работает Mixed Precision Training (FP16 + FP32 master веса)
470. Что такое DeepSpeed ZeRO-Offload и когда он полезен
471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch
472. Почему gradient accumulation эквивалентен большому batch с точки зрения оптимизации
480. Как работает selective activation recomputation
482. Как работает QLoRA (Quantized LoRA) для training
485. Как вы дебажите training instability (loss spikes, divergence)
666. Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать
669. Как работает связь между SGD и Adam Почему Adam лучше для LLM
677. Как работает forward pass LLM от токена до вероятности следующего токена
705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100
715. Hyena как заменить attention на свертки, сохранив качество
800+ вопросов
53. Реализовать selective scan (Mamba)
56. Реализовать diffusion LLM (PLANNER)
59. Сравнить архитектуры на reasoning задачах
92. Профилировать GPU utilization падение
215. Настроить expert parallelism для Mixtral

mixed precision training

mixed precision training

Определение

Где встречается

Навигация

mixed precision training

mixed precision training

Определение

Где встречается

Навигация