OpenAI Triton Inference Server
OpenAI Triton Inference Server
Определение
Сервер инференса, позволяющий реализовать кастомные планировщики для continuous batching и оптимизации вывода моделей.
Сервер инференса, позволяющий реализовать кастомные планировщики для continuous batching и оптимизации вывода моделей.