Gradient checkpointing
Gradient checkpointing
Определение
Gradient checkpointing — техника оптимизации памяти при обучении нейросетей, при которой промежуточные активации (значения, необходимые для обратного распространения ошибки) не сохраняются на каждом шаге, а пересчитываются заново во время backward pass. Это позволяет значительно снизить пиковое потребление GPU-памяти ценой увеличения времени вычислений (обычно на 20–30%). Метод особенно полезен при fine-tuning больших моделей или работе с длинными последовательностями, когда модель не помещается в память целиком.
Где встречается
- 955. Что такое QLoRA? Как 4-bit NormalFloat (NF4) quantization и Double Quantization
- 980. Как сделать fine-tuning модели на 1 млн токенов контекста?