English translation is not available yet. Showing Russian content.
multi-GPU inference
multi-GPU inference
Определение
Запуск модели на нескольких GPU для уменьшения задержки или увеличения пропускной способности; при tensor parallelism узким местом может стать шина PCIe.
Где встречается
- 307. Как PCIe bottleneck проявляется в multi-GPU инференсе
- 697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)
- 800+ вопросов