English translation is not available yet. Showing Russian content.

ZeRO-3

ZeRO-3

Определение

Технология шардирования состояния модели, при которой optimizer state, градиенты и параметры распределяются между GPU, каждый GPU хранит только свою часть, с коммуникацией на forward/backward.

Где встречается

Навигация