English translation is not available yet. Showing Russian content.
ZeRO-3
ZeRO-3
Определение
Технология шардирования состояния модели, при которой optimizer state, градиенты и параметры распределяются между GPU, каждый GPU хранит только свою часть, с коммуникацией на forward/backward.