Temporal partitioning
Temporal partitioning
Определение
Программное разделение GPU по времени, при котором драйвер переключает контексты между задачами с квантами времени, используется для мульти-tenant serving в Kubernetes.
Где встречается
- 315. Что такое MIG (Multi-Instance GPU) и когда он полезен для LLM
- 826. Как организовать GPU scheduling для multi-tenant LLM serving
- 800+ вопросов