NVLink

Определение

Высокоскоростной аппаратный интерконнект NVIDIA для прямой связи GPU, обеспечивающий низкую задержку и высокую пропускную способность (например, 900 ГБ/с на H100). Используется для multi-GPU инференса и обучения.

Где встречается

203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
303. Как работают Tensor Cores в H100B200 и для чего они нужны
307. Как PCIe bottleneck проявляется в multi-GPU инференсе
314. Как работает NVLink Switch System на DGX H100
401. Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism
402. Что такое NCCL и почему он критичен для multi-GPU инференса
423. Как работает tensor parallelism для LLM training Чем отличается от инференса
424. Что такое pipeline parallelism и проблема pipeline bubbles
425. Как работает sequence parallelism в контексте LLM
426. Что такое 3D parallelism (data + tensor + pipeline)
459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
461. Почему training 70B модели требует optimizer sharding (ZeRO-3)
462. ZeRO-1 vs ZeRO-2 vs ZeRO-3 что и когда использовать
650. Что такое memory-efficient attention для long context на 8x H100
710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
840. Когда tensor parallelism хуже pipeline parallelism
Практика
800+ вопросов
1. Развернуть NCCL бенчмарк на 2-8 GPU
5. Сравнить NCCL ring vs tree
6. Настроить NVLink topology для 8x GPU
9. Профилировать network congestion на 64 GPU
10. Реализовать topology-aware scheduling
224. vLLM кластер на 4 GPU

NVLink

NVLink

Определение

Где встречается

Навигация