中文翻译暂不可用,显示俄语原文。
multi-GPU inference
multi-GPU inference
Определение
Запуск модели на нескольких GPU для уменьшения задержки или увеличения пропускной способности; при tensor parallelism узким местом может стать шина PCIe.
Где встречается
- 307. Как PCIe bottleneck проявляется в multi-GPU инференсе
- 697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)
- 800+ вопросов