large batch inference
large batch inference
Определение
Режим инференса, при котором модели подаются большие батчи запросов для повышения пропускной способности. Однако такая конфигурация неэффективна при использовании Multi-Instance GPU из-за снижения утилизации.