online inference

Определение

Синхронный инференс с низкой задержкой (<500ms) для real-time взаимодействия, требует постоянной доступности и часто использует on-demand instances.