Binpacking

Binpacking

Определение

Метод размещения нескольких маленьких моделей или батчей на одном GPU для повышения загрузки вычислительных ресурсов (occupancy). Применяется при организации GPU scheduling для мультитенантного обслуживания LLM.

Где встречается

Навигация