中文翻译暂不可用,显示俄语原文。
Binpacking
Binpacking
Определение
Метод размещения нескольких маленьких моделей или батчей на одном GPU для повышения загрузки вычислительных ресурсов (occupancy). Применяется при организации GPU scheduling для мультитенантного обслуживания LLM.