Pipeline parallelism

Определение

Стратегия распараллеливания, при которой модель разрезается по слоям между узлами (GPU); требует микробатчей и страдает от pipeline bubbles.

Где встречается

61. Как вы разворачиваете LLM в production (self-hosted)
203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
220. Как вы выбираете между online и batch инференсом для LLM
307. Как PCIe bottleneck проявляется в multi-GPU инференсе
308. Как работают CUDA streams и как они помогают оверлапить compute и communication
314. Как работает NVLink Switch System на DGX H100
320. Что такое ONNX Runtime и когда он выгоден для LLM
401. Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism
402. Что такое NCCL и почему он критичен для multi-GPU инференса
423. Как работает tensor parallelism для LLM training Чем отличается от инференса
424. Что такое pipeline parallelism и проблема pipeline bubbles
425. Как работает sequence parallelism в контексте LLM
426. Что такое 3D parallelism (data + tensor + pipeline)
432. Как работает FlashAttention-3 технически Чем отличается от FA2
459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
461. Почему training 70B модели требует optimizer sharding (ZeRO-3)
462. ZeRO-1 vs ZeRO-2 vs ZeRO-3 что и когда использовать
463. Что такое activation recomputation (checkpointing) и зачем оно нужно
465. Как работает gradient checkpointing в DeepSpeed
471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch
709. NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving
710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
849. Что такое expert parallelism для MoE моделей (Mixtral)
800+ вопросов
224. vLLM кластер на 4 GPU

Pipeline parallelism

Pipeline parallelism

Определение

Где встречается

Навигация

Pipeline parallelism

Pipeline parallelism

Определение

Где встречается

Навигация