Gradient checkpointing

Gradient checkpointing

Определение

Gradient checkpointing — техника оптимизации памяти при обучении нейросетей, при которой промежуточные активации (значения, необходимые для обратного распространения ошибки) не сохраняются на каждом шаге, а пересчитываются заново во время backward pass. Это позволяет значительно снизить пиковое потребление GPU-памяти ценой увеличения времени вычислений (обычно на 20–30%). Метод особенно полезен при fine-tuning больших моделей или работе с длинными последовательностями, когда модель не помещается в память целиком.

Где встречается

Навигация