中文翻译暂不可用,显示俄语原文。

ZeRO-3

ZeRO-3

Определение

Технология шардирования состояния модели, при которой optimizer state, градиенты и параметры распределяются между GPU, каждый GPU хранит только свою часть, с коммуникацией на forward/backward.

Где встречается

Навигация