Binpacking
Binpacking
Определение
Метод размещения нескольких маленьких моделей или батчей на одном GPU для повышения загрузки вычислительных ресурсов (occupancy). Применяется при организации GPU scheduling для мультитенантного обслуживания LLM.
Метод размещения нескольких маленьких моделей или батчей на одном GPU для повышения загрузки вычислительных ресурсов (occupancy). Применяется при организации GPU scheduling для мультитенантного обслуживания LLM.