multi-GPU inference

Определение

Запуск модели на нескольких GPU для уменьшения задержки или увеличения пропускной способности; при tensor parallelism узким местом может стать шина PCIe.

Где встречается

307. Как PCIe bottleneck проявляется в multi-GPU инференсе
697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)
800+ вопросов

multi-GPU inference

multi-GPU inference

Определение

Где встречается

Навигация