mixed precision training
mixed precision training
Определение
Mixed precision training — техника использования разных форматов чисел (FP16, BF16, FP32) для ускорения обучения и инференса при сохранении точности.
Где встречается
- 35. Как вы fine-tune embedding модель под свой домен (а не используете готовую)
- 77. Как вы оптимизируете embedding генерацию для большого количества документов
- 276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется
- 303. Как работают Tensor Cores в H100B200 и для чего они нужны
- 312. Как работает FP8 quantization на H100 (Transformer Engine)
- 426. Что такое 3D parallelism (data + tensor + pipeline)
- 431. Почему LLM inference memory-bound, а не compute-bound
- 444. Почему 4-bit inference иногда медленнее 8-bit
- 458. Что такое FP8 инференс на H100 (Transformer Engine)
- 461. Почему training 70B модели требует optimizer sharding (ZeRO-3)
- 462. ZeRO-1 vs ZeRO-2 vs ZeRO-3 что и когда использовать
- 463. Что такое activation recomputation (checkpointing) и зачем оно нужно
- 464. Почему BF16 лучше FP16 для training
- 465. Как работает gradient checkpointing в DeepSpeed
- 468. Почему small batch size (32) ухудшает training стабильность
- 469. Как работает Mixed Precision Training (FP16 + FP32 master веса)
- 470. Что такое DeepSpeed ZeRO-Offload и когда он полезен
- 471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch
- 472. Почему gradient accumulation эквивалентен большому batch с точки зрения оптимизации
- 480. Как работает selective activation recomputation
- 482. Как работает QLoRA (Quantized LoRA) для training
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 666. Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать
- 669. Как работает связь между SGD и Adam Почему Adam лучше для LLM
- 677. Как работает forward pass LLM от токена до вероятности следующего токена
- 705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100
- 715. Hyena как заменить attention на свертки, сохранив качество
- 800+ вопросов
- 53. Реализовать selective scan (Mamba)
- 56. Реализовать diffusion LLM (PLANNER)
- 59. Сравнить архитектуры на reasoning задачах
- 92. Профилировать GPU utilization падение
- 215. Настроить expert parallelism для Mixtral