ONNX Runtime

Определение

Кроссплатформенный движок инференса для моделей в формате ONNX, оптимизирующий выполнение за счёт слияния операций, квантизации и аппаратно-зависимых бэкендов.

Где встречается

64. Как вы обеспечиваете низкую задержку (500ms) для LLM
320. Что такое ONNX Runtime и когда он выгоден для LLM
324. Что такое TVM (Apache TVM) и зачем он нужен для AI инференса
473. Что такое torch.compile и как он ускоряет training
800+ вопросов
72. Настроить capacity planning для GPU кластера
73. Сравнить spot vs on-demand для batch inference
77. Реализовать cost-aware routing

ONNX Runtime

ONNX Runtime

Определение

Где встречается

Навигация