TensorRT-LLM

TensorRT-LLM

Определение

Библиотека от NVIDIA для оптимизации инференса LLM на GPU, использующая MLIR и операторные оптимизации. Обеспечивает высокую производительность для фиксированных batch/sequence размеров.

Где встречается

Навигация