Punica
Punica
Определение
Punica — это система для эффективного обслуживания множества LoRA-адаптеров на одной базовой модели без необходимости её перезагрузки. Она использует многопоточное применение LoRA внутри одного ядра, что позволяет одновременно обрабатывать запросы с разными адаптерами, минимизируя накладные расходы. Punica обеспечивает масштабируемость и низкую задержку в multi-tenant сценариях.