Почему gradient accumulation эквивалентен большому batch с точки зрения оптимизации?

Q: Краткий тезис

**[[Вики/gradient accumulation\|Gradient accumulation]]** — это техника, при которой градиенты вычисляются на нескольких маленьких микро-батчах и суммируются (или усредняются) перед одним шагом оптимизатора. Математически итоговый [[Вики/gradients\|градиент]] совпадает с градиентом, полученным на одном большом батче размера `micro_batch * [[Вики/accumulation steps\|accumulation_steps]]`, при условии, что [[Вики/Loss\|функция потерь]] является средним по элементам батча. Однако на практике из-за

Q: 1. Термин: Gradient Accumulation

**[[Вики/gradient accumulation\|Gradient accumulation]]** — это метод, позволяющий симулировать большой [[Вики/batch size\|batch size]] при ограниченной памяти [[Вики/GPU\|GPU]]. Вместо того чтобы загружать сразу большой [[Вики/batch size\|батч]] и вычислять [[Вики/gradients\|градиент]] за один проход, мы:

Q: 2. Математическая эквивалентность

Пусть у нас есть [[Вики/Loss\|функция потерь]] `L(x, y; θ)`, где `θ` — параметры модели. Для батча размера `B` полная потеря обычно определяется как среднее по элементам: `L_total(θ) = (1/B) Σ_{i=1}^{B} L(x_i, y_i; θ)` `∇L_total = (1/B) Σ ∇L_i` Теперь разобьём [[Вики/batch size\|батч]] на `N` микро-батчей размера `b` каждый, так что `B = N * b`. Для каждого микро-батча `j`:

Q: 3. Почему это работает? Линейность градиента

Ключевое [[Вики/Invariant\|свойство]] — линейность оператора градиента. [[Вики/gradients\|Градиент]] суммы функций равен сумме градиентов. Поскольку [[Вики/Loss\|функция потерь]] для батча является средним (линейной комбинацией) индивидуальных потерь, [[Вики/gradients\|градиент]] по батчу — это среднее градиентов по элементам. [[Вики/gradient accumulation\|Gradient accumulation]] использует эту линейность: [[Вики/суммаризация таблицы\|суммирование]] градиентов микро-батчей эквивалентно суммирова

Q: 5. Практические соображения

- [[Вики/Memory\|Память]] [[Вики/accumulation steps\|Gradient accumulation]] позволяет использовать [[Вики/effective batch size\|эффективный batch size]], превышающий физическую [[Вики/GPU memory\|память GPU]]. Например, с микро-батчем 4 и [[Вики/accumulation steps\|accumulation steps]] 8 получаем эффективный [[Вики/Batch inference\|batch]] 32.

Q: 6. Когда использовать gradient accumulation?

- Ограниченная [[Вики/GPU memory\|память GPU]] Когда желаемый [[Вики/batch size\|batch size]] не помещается в [[Вики/GPU memory\|VRAM]]. - [[Вики/simulation\|Симуляция]] большого [[Вики/Batch inference\|batch]] Для стабильности обучения (меньше [[Вики/gradient noise\|variance градиентов]]) или для совместимости с предобученными моделями, которые обучались с определённым [[Вики/batch size\|batch size]].

Q: 7. Пример кода на PyTorch

import torch import torch.nn as nn import torch.optim as optim model = nn.Linear(10, 2) optimizer = optim.SGD(model.parameters(), lr=0.01) accumulation_steps = 4 micro_batch_size = 2 effective_batch_size = micro_batch_size * accumulation_steps

Краткий тезис

Gradient accumulation — это техника, при которой градиенты вычисляются на нескольких маленьких микро-батчах и суммируются (или усредняются) перед одним шагом оптимизатора. Математически итоговый градиент совпадает с градиентом, полученным на одном большом батче размера micro_batch * accumulation_steps, при условии, что функция потерь является средним по элементам батча. Однако на практике из-за variance градиентов и эффектов batch normalization полной эквивалентности нет, особенно при большом числе шагов накопления.

1. Термин: Gradient Accumulation

Gradient accumulation — это метод, позволяющий симулировать большой batch size при ограниченной памяти GPU. Вместо того чтобы загружать сразу большой батч и вычислять градиент за один проход, мы:

Делим большой батч на N микро-батчей.
Для каждого микро-батча делаем forward + backward, но не обновляем веса.
Накопливаем (суммируем) градиенты в буфере.
После обработки всех микро-батчей делаем один шаг оптимизатора, используя накопленный градиент.

Термин микро-батч (micro-batch) — это минимальный подбатч, который помещается в память GPU. Accumulation steps — количество микро-батчей, градиенты которых суммируются перед обновлением.

2. Математическая эквивалентность

Пусть у нас есть функция потерь L(x, y; θ), где θ — параметры модели. Для батча размера B полная потеря обычно определяется как среднее по элементам:

L_total(θ) = (1/B) Σ_{i=1}^{B} L(x_i, y_i; θ)

Градиент по параметрам:

∇L_total = (1/B) Σ ∇L_i

Теперь разобьём батч на N микро-батчей размера b каждый, так что B = N * b. Для каждого микро-батча j:

∇L_micro_j = (1/b) Σ_{i in micro_j} ∇L_i

Если мы просто просуммируем градиенты микро-батчей:

Σ ∇L_micro_j = Σ (1/b) Σ ∇L_i = (1/b) Σ_{i=1}^{B} ∇L_i = (B/b) * (1/B) Σ ∇L_i = N * ∇L_total

Таким образом, сумма градиентов микро-батчей в N раз больше истинного градиента для полного батча. Чтобы получить эквивалентный градиент, нужно усреднить сумму (разделить на N). Обычно в фреймворках (PyTorch, TensorFlow) градиенты по умолчанию суммируются, поэтому при gradient accumulation мы либо делим на N вручную, либо используем loss / N при backward.

Вывод Если после каждого микро-батча делать loss.backward() (градиенты суммируются), а затем после N шагов вызвать optimizer.step() и поделить накопленный градиент на N, то полученное обновление будет в точности равно обновлению от одного батча размера B = N * b.

3. Почему это работает? Линейность градиента

Ключевое свойство — линейность оператора градиента. Градиент суммы функций равен сумме градиентов. Поскольку функция потерь для батча является средним (линейной комбинацией) индивидуальных потерь, градиент по батчу — это среднее градиентов по элементам. Gradient accumulation использует эту линейность: суммирование градиентов микро-батчей эквивалентно суммированию градиентов всех элементов, а затем делению на количество микро-батчей даёт среднее.

Это справедливо для любой дифференцируемой функции потерь, если она вычисляется как среднее по батчу. Если же используется сумма (например, loss = Σ L_i), то эквивалентность достигается без деления на N.

4. Отличия от реального большого batch

Несмотря на математическую эквивалентность, на практике есть важные различия:

Аспект	Реальный большой batch	Gradient accumulation
Variance градиентов	Градиент вычисляется по всем элементам сразу, variance ниже	Каждый микро-батч даёт шумный градиент; накопление уменьшает variance, но не полностью идентично из-за порядка обработки
Batch Normalization	Статистики (mean, var) вычисляются по всему батчу	Статистики вычисляются отдельно для каждого микро-батча; итоговые статистики не эквивалентны полному батчу
Dropout	Маска dropout применяется один раз на весь батч	Маска применяется отдельно для каждого микро-батча; эквивалентность только если dropout одинаков для всех микро-батчей (обычно так и есть)
LR scheduling	Шаги оптимизатора соответствуют реальным батчам	Количество шагов в `N` раз меньше; learning rate может потребовать корректировки (например, linear scaling rule)
Память	Требуется много памяти для хранения активаций всего батча	Память линейно зависит от размера микро-батча; позволяет обучать модели с非常大的 batch size

Variance градиентов — разброс оценок градиента относительно истинного. При gradient accumulation градиенты микро-батчей могут быть более шумными, особенно если микро-батчи маленькие. Хотя среднее по N микро-батчам имеет ту же variance, что и градиент полного батча (при условии независимости), на практике из-за корреляции данных в батче (например, shuffled order) variance может немного отличаться. Однако для большинства задач различие незначительно.

Batch Normalization — серьёзное отличие. Если модель содержит BatchNorm (или LayerNorm с батч-зависимостью), то статистики нормализации вычисляются по каждому микро-батчу отдельно. При gradient accumulation эти статистики не усредняются между микро-батчами, что приводит к другому распределению активаций. Решение: использовать SyncBatchNorm (синхронизация между микро-батчами) или переключиться на GroupNorm / LayerNorm, которые не зависят от размера батча.

5. Практические соображения

Память Gradient accumulation позволяет использовать эффективный batch size, превышающий физическую память GPU. Например, с микро-батчем 4 и accumulation steps 8 получаем эффективный batch 32.
Скорость Каждый микро-батч требует отдельного forward/backward, что увеличивает общее время обучения (особенно overhead от запуска ядер). Однако это часто приемлемо, если память — узкое место.
Distributed training Gradient accumulation часто комбинируется с data parallelism. В распределённой среде каждый GPU обрабатывает свой микро-батч, затем градиенты all-reduce суммируются. Accumulation steps могут быть распределены между GPU или выполняться локально.
Learning rate: При увеличении эффективного batch size часто применяют linear scaling rule: увеличивать learning rate пропорционально batch size. При gradient accumulation эффективный batch size = micro_batch * accumulation_steps * num_gpus. Если вы меняете accumulation steps, нужно скорректировать LR.

6. Когда использовать gradient accumulation?

Ограниченная память GPU Когда желаемый batch size не помещается в VRAM.
Симуляция большого batch Для стабильности обучения (меньше variance градиентов) или для совместимости с предобученными моделями, которые обучались с определённым batch size.
Fine-tuning больших моделей LLM (например, LLaMA, GPT) часто fine-tune с batch size 1-4 на GPU, используя gradient accumulation до 64+.
Обучение агентов В контексте Agentic RAG может потребоваться fine-tuning retriever или генератора на данных с длинными контекстами; gradient accumulation помогает уместить обучение на одной GPU.

Не рекомендуется использовать gradient accumulation, если:

Модель содержит BatchNorm и нет возможности заменить его.
Требуется минимальное время обучения (overhead от множества микро-батчей может быть значительным).
Размер микро-батча слишком мал (например, 1), что приводит к высокому variance и нестабильности.

7. Пример кода на PyTorch

import torch
import torch.nn as nn
import torch.optim as optim

model = nn.Linear(10, 2)
optimizer = optim.SGD(model.parameters(), lr=0.01)
accumulation_steps = 4
micro_batch_size = 2
effective_batch_size = micro_batch_size * accumulation_steps

# Предположим, у нас 8 образцов
data = torch.randn(8, 10)
targets = torch.randint(0, 2, (8,))

optimizer.zero_grad()
for i in range(0, len(data), micro_batch_size):
    micro_batch = data[i:i+micro_batch_size]
    micro_targets = targets[i:i+micro_batch_size]
    
    outputs = model(micro_batch)
    loss = nn.functional.cross_entropy(outputs, micro_targets)
    loss = loss / accumulation_steps  # усредняем, чтобы суммарный градиент был средним
    loss.backward()
    
    # После каждого accumulation_steps делаем шаг
    if (i // micro_batch_size + 1) % accumulation_steps == 0:
        optimizer.step()
        optimizer.zero_grad()

Важно Деление loss на accumulation_steps необходимо, чтобы после суммирования градиентов получить среднее по эффективному батчу. Если не делить, то градиент будет в accumulation_steps раз больше, и learning rate нужно соответственно уменьшить.

8. Связь с другими техниками

Gradient checkpointing — уменьшает память за счёт пересчёта активаций во время backward. Комбинируется с gradient accumulation для ещё большего снижения потребления памяти.
Mixed precision training (FP16/AMP) — ускоряет вычисления и уменьшает память. При gradient accumulation важно использовать scaler из torch.cuda.amp для корректного масштабирования градиентов.
Distributed Data Parallel (DDP) — градиенты синхронизируются между GPU. Gradient accumulation может быть реализован как локально (каждый GPU накапливает свои микро-батчи), так и глобально (accumulation steps распределены между GPU).

Пет-проект для закрепления

Задача Обучить небольшую модель (например, ResNet-18 на CIFAR-10) с gradient accumulation и сравнить с обучением на реальном большом batch.

Инструменты PyTorch, torchvision, matplotlib.

Шаги:

Загрузите CIFAR-10, создайте DataLoader с batch size = 64.
Обучите модель с batch size = 64 (реальный большой batch) — baseline.
Обучите ту же модель с micro_batch_size = 16 и accumulation_steps = 4 (эффективный batch 64). Замерьте время и точность.
Повторите для micro_batch_size = 8, accumulation_steps = 8.
Постройте графики loss и accuracy, сравните сходимость.
Добавьте BatchNorm и повторите эксперимент — заметьте разницу.

Ожидаемый результат При одинаковом эффективном batch size кривые обучения будут близки, но при малом micro_batch_size (например, 2) может наблюдаться больший шум. BatchNorm вызовет расхождение, если не использовать SyncBatchNorm.

Связь с другими вопросами

Вопрос	Тема
470	Как работает gradient checkpointing?
471	Сравнение методов уменьшения памяти при обучении
473	Влияние batch size на обобщающую способность
474	Linear scaling rule для learning rate
475	Особенности distributed training с gradient accumulation
480	Оптимизация fine-tuning LLM для RAG

Краткий тезис

1. Термин: Gradient Accumulation

Делим большой батч на N микро-батчей.
Для каждого микро-батча делаем forward + backward, но не обновляем веса.
Накопливаем (суммируем) градиенты в буфере.
После обработки всех микро-батчей делаем один шаг оптимизатора, используя накопленный градиент.

2. Математическая эквивалентность

L_total(θ) = (1/B) Σ_{i=1}^{B} L(x_i, y_i; θ)

Градиент по параметрам:

∇L_total = (1/B) Σ ∇L_i

Теперь разобьём батч на N микро-батчей размера b каждый, так что B = N * b. Для каждого микро-батча j:

∇L_micro_j = (1/b) Σ_{i in micro_j} ∇L_i

Если мы просто просуммируем градиенты микро-батчей:

Σ ∇L_micro_j = Σ (1/b) Σ ∇L_i = (1/b) Σ_{i=1}^{B} ∇L_i = (B/b) * (1/B) Σ ∇L_i = N * ∇L_total

3. Почему это работает? Линейность градиента

4. Отличия от реального большого batch

Несмотря на математическую эквивалентность, на практике есть важные различия:

Аспект	Реальный большой batch	Gradient accumulation
Variance градиентов	Градиент вычисляется по всем элементам сразу, variance ниже	Каждый микро-батч даёт шумный градиент; накопление уменьшает variance, но не полностью идентично из-за порядка обработки
Batch Normalization	Статистики (mean, var) вычисляются по всему батчу	Статистики вычисляются отдельно для каждого микро-батча; итоговые статистики не эквивалентны полному батчу
Dropout	Маска dropout применяется один раз на весь батч	Маска применяется отдельно для каждого микро-батча; эквивалентность только если dropout одинаков для всех микро-батчей (обычно так и есть)
LR scheduling	Шаги оптимизатора соответствуют реальным батчам	Количество шагов в `N` раз меньше; learning rate может потребовать корректировки (например, linear scaling rule)
Память	Требуется много памяти для хранения активаций всего батча	Память линейно зависит от размера микро-батча; позволяет обучать модели с非常大的 batch size

5. Практические соображения

Память Gradient accumulation позволяет использовать эффективный batch size, превышающий физическую память GPU. Например, с микро-батчем 4 и accumulation steps 8 получаем эффективный batch 32.
Скорость Каждый микро-батч требует отдельного forward/backward, что увеличивает общее время обучения (особенно overhead от запуска ядер). Однако это часто приемлемо, если память — узкое место.
Distributed training Gradient accumulation часто комбинируется с data parallelism. В распределённой среде каждый GPU обрабатывает свой микро-батч, затем градиенты all-reduce суммируются. Accumulation steps могут быть распределены между GPU или выполняться локально.
Learning rate: При увеличении эффективного batch size часто применяют linear scaling rule: увеличивать learning rate пропорционально batch size. При gradient accumulation эффективный batch size = micro_batch * accumulation_steps * num_gpus. Если вы меняете accumulation steps, нужно скорректировать LR.

6. Когда использовать gradient accumulation?

Ограниченная память GPU Когда желаемый batch size не помещается в VRAM.
Симуляция большого batch Для стабильности обучения (меньше variance градиентов) или для совместимости с предобученными моделями, которые обучались с определённым batch size.
Fine-tuning больших моделей LLM (например, LLaMA, GPT) часто fine-tune с batch size 1-4 на GPU, используя gradient accumulation до 64+.
Обучение агентов В контексте Agentic RAG может потребоваться fine-tuning retriever или генератора на данных с длинными контекстами; gradient accumulation помогает уместить обучение на одной GPU.

Не рекомендуется использовать gradient accumulation, если:

Модель содержит BatchNorm и нет возможности заменить его.
Требуется минимальное время обучения (overhead от множества микро-батчей может быть значительным).
Размер микро-батча слишком мал (например, 1), что приводит к высокому variance и нестабильности.

7. Пример кода на PyTorch

import torch
import torch.nn as nn
import torch.optim as optim

model = nn.Linear(10, 2)
optimizer = optim.SGD(model.parameters(), lr=0.01)
accumulation_steps = 4
micro_batch_size = 2
effective_batch_size = micro_batch_size * accumulation_steps

# Предположим, у нас 8 образцов
data = torch.randn(8, 10)
targets = torch.randint(0, 2, (8,))

optimizer.zero_grad()
for i in range(0, len(data), micro_batch_size):
    micro_batch = data[i:i+micro_batch_size]
    micro_targets = targets[i:i+micro_batch_size]
    
    outputs = model(micro_batch)
    loss = nn.functional.cross_entropy(outputs, micro_targets)
    loss = loss / accumulation_steps  # усредняем, чтобы суммарный градиент был средним
    loss.backward()
    
    # После каждого accumulation_steps делаем шаг
    if (i // micro_batch_size + 1) % accumulation_steps == 0:
        optimizer.step()
        optimizer.zero_grad()

8. Связь с другими техниками

Gradient checkpointing — уменьшает память за счёт пересчёта активаций во время backward. Комбинируется с gradient accumulation для ещё большего снижения потребления памяти.
Mixed precision training (FP16/AMP) — ускоряет вычисления и уменьшает память. При gradient accumulation важно использовать scaler из torch.cuda.amp для корректного масштабирования градиентов.
Distributed Data Parallel (DDP) — градиенты синхронизируются между GPU. Gradient accumulation может быть реализован как локально (каждый GPU накапливает свои микро-батчи), так и глобально (accumulation steps распределены между GPU).

Пет-проект для закрепления

Инструменты PyTorch, torchvision, matplotlib.

Шаги:

Загрузите CIFAR-10, создайте DataLoader с batch size = 64.
Обучите модель с batch size = 64 (реальный большой batch) — baseline.
Обучите ту же модель с micro_batch_size = 16 и accumulation_steps = 4 (эффективный batch 64). Замерьте время и точность.
Повторите для micro_batch_size = 8, accumulation_steps = 8.
Постройте графики loss и accuracy, сравните сходимость.
Добавьте BatchNorm и повторите эксперимент — заметьте разницу.

Связь с другими вопросами

Вопрос	Тема
470	Как работает gradient checkpointing?
471	Сравнение методов уменьшения памяти при обучении
473	Влияние batch size на обобщающую способность
474	Linear scaling rule для learning rate
475	Особенности distributed training с gradient accumulation
480	Оптимизация fine-tuning LLM для RAG

Почему gradient accumulation эквивалентен большому batch с точки зрения оптимизации?

Краткий тезис

1. Термин: Gradient Accumulation

2. Математическая эквивалентность

3. Почему это работает? Линейность градиента

4. Отличия от реального большого batch

5. Практические соображения

6. Когда использовать gradient accumulation?

7. Пример кода на PyTorch

8. Связь с другими техниками

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Почему gradient accumulation эквивалентен большому batch с точки зрения оптимизации?

Краткий тезис

1. Термин: Gradient Accumulation

2. Математическая эквивалентность

3. Почему это работает? Линейность градиента

4. Отличия от реального большого batch

5. Практические соображения

6. Когда использовать gradient accumulation?

7. Пример кода на PyTorch

8. Связь с другими техниками

Пет-проект для закрепления

Связь с другими вопросами

Навигация