English translation is not available yet. Showing Russian content.

VLLM

VLLM

Определение

Библиотека для высокопроизводительного инференса LLM, использующая Paged Attention и continuous batching для эффективного использования GPU памяти и увеличения пропускной способности.

Где встречается

Навигация