CUDA Execution Provider

Определение

Бэкенд для ONNX Runtime, обеспечивающий выполнение моделей на NVIDIA GPU с использованием cuBLAS и Tensor Cores. Поддерживает FP16 и INT8, оптимизирован для инференса.

Где встречается

320. Что такое ONNX Runtime и когда он выгоден для LLM

CUDA Execution Provider

CUDA Execution Provider

Определение

Где встречается

Навигация