English translation is not available yet. Showing Russian content.
Weight sharding
Weight sharding
Определение
Распределение параметров модели между несколькими GPU, характерное для ZeRO-3. Позволяет экономить память в N раз за счёт хранения каждого веса только на одном устройстве.