中文翻译暂不可用,显示俄语原文。
ONNX Runtime
ONNX Runtime
Определение
Кроссплатформенный движок инференса для моделей в формате ONNX, оптимизирующий выполнение за счёт слияния операций, квантизации и аппаратно-зависимых бэкендов.
Где встречается
- 64. Как вы обеспечиваете низкую задержку (500ms) для LLM
- 320. Что такое ONNX Runtime и когда он выгоден для LLM
- 324. Что такое TVM (Apache TVM) и зачем он нужен для AI инференса
- 473. Что такое torch.compile и как он ускоряет training
- 800+ вопросов
- 72. Настроить capacity planning для GPU кластера
- 73. Сравнить spot vs on-demand для batch inference
- 77. Реализовать cost-aware routing