large batch inference

large batch inference

Определение

Режим инференса, при котором модели подаются большие батчи запросов для повышения пропускной способности. Однако такая конфигурация неэффективна при использовании Multi-Instance GPU из-за снижения утилизации.

Где встречается

Навигация