Tensor parallelism

Определение

Стратегия распределения модели, при которой веса слоёв разрезаются между GPU, а attention heads распределяются. Требует частых коммуникаций (AllReduce) на каждом forward pass, эффективна в пределах одного узла.

Где встречается

61. Как вы разворачиваете LLM в production (self-hosted)
203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
220. Как вы выбираете между online и batch инференсом для LLM
305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
307. Как PCIe bottleneck проявляется в multi-GPU инференсе
310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
314. Как работает NVLink Switch System на DGX H100
318. TensorRT-LLM vs vLLM — сравнение для production deployment.
320. Что такое ONNX Runtime и когда он выгоден для LLM
401. Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism
402. Что такое NCCL и почему он критичен для multi-GPU инференса
403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
423. Как работает tensor parallelism для LLM training Чем отличается от инференса
424. Что такое pipeline parallelism и проблема pipeline bubbles
425. Как работает sequence parallelism в контексте LLM
426. Что такое 3D parallelism (data + tensor + pipeline)
436. В чем разница между prefill и decode stage в LLM инференсе
455. Как вы выбираете между online и batch инференсом для LLM
459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
460. Как работает tensor parallelism с FP8 в vLLM
461. Почему training 70B модели требует optimizer sharding (ZeRO-3)
462. ZeRO-1 vs ZeRO-2 vs ZeRO-3 что и когда использовать
470. Что такое DeepSpeed ZeRO-Offload и когда он полезен
471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch
485. Как вы дебажите training instability (loss spikes, divergence)
642. Как вы реализуете KV cache для 1M токенов на 8x H100
650. Что такое memory-efficient attention для long context на 8x H100
709. NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving
710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)
849. Что такое expert parallelism для MoE моделей (Mixtral)
Практика
800+ вопросов
10. Реализовать topology-aware scheduling
206. Развернуть vLLM vs TGI, сравнить throughput
215. Настроить expert parallelism для Mixtral
224. vLLM кластер на 4 GPU

Tensor parallelism

Tensor parallelism

Определение

Где встречается

Навигация

Tensor parallelism

Tensor parallelism

Определение

Где встречается

Навигация