English translation is not available yet. Showing Russian content.

Weight sharding

Weight sharding

Определение

Распределение параметров модели между несколькими GPU, характерное для ZeRO-3. Позволяет экономить память в N раз за счёт хранения каждого веса только на одном устройстве.

Где встречается

Навигация