中文翻译暂不可用,显示俄语原文。

Weight sharding

Weight sharding

Определение

Распределение параметров модели между несколькими GPU, характерное для ZeRO-3. Позволяет экономить память в N раз за счёт хранения каждого веса только на одном устройстве.

Где встречается

Навигация