OpenAI Triton Inference Server

Определение

Сервер инференса, позволяющий реализовать кастомные планировщики для continuous batching и оптимизации вывода моделей.