English translation is not available yet. Showing Russian content.

Multi-tenant LLM serving

Multi-tenant LLM serving

Определение

Организация доступа нескольких команд или продуктов к LLM на общем GPU. Включает планирование запросов (scheduling) с учётом SLA каждого тенанта.

Где встречается

Навигация