Weight shardingWeight sharding Определение Распределение параметров модели между несколькими GPU, характерное для ZeRO-3. Позволяет экономить память в N раз за счёт хранения каждого веса только на одном устройстве. Где встречается 462. ZeRO-1 vs ZeRO-2 vs ZeRO-3 что и когда использовать Навигация Индекс терминов Индекс разборов Оглавление
Weight sharding Определение Распределение параметров модели между несколькими GPU, характерное для ZeRO-3. Позволяет экономить память в N раз за счёт хранения каждого веса только на одном устройстве. Где встречается 462. ZeRO-1 vs ZeRO-2 vs ZeRO-3 что и когда использовать Навигация Индекс терминов Индекс разборов Оглавление