Triton Inference Server

Определение

Сервер инференса от NVIDIA для развёртывания моделей с поддержкой dynamic batching и оптимизации производительности.