Навигация (Obsidian)

- Предыдущий: [[979. Как работает P-Tuning v2?|979]] - Следующий: [[981. Как работает LoRA?|981]] - Индекс: [[00. Индекс разборов]]

Как сделать fine-tuning модели на 1 млн токенов контекста (например, для анализа кодовой базы)? Технические ограничения.

Q: 2. Методы: YaRN, NTK-aware scaling уже в модели

Современные LLM (например, [[Вики/Llama 3|Llama 3]], [[Вики/Mistral|Mistral]]) используют [[Вики/RoPE|RoPE]] (Rotary Position Embedding). RoPE позволяет экстраполировать позиции за пределы обученной длины, но качество падает. Для fine-tuning на длинные контексты применяют: - **[[Вики/NTK-aware scaling|NTK-aware scaling]]** — изменение частот RoPE так, чтобы высокие частоты оставались чувствительными к локальным позициям, а низкие — к глобальным. Позволяет увеличить контекст в 2–4 раза без дообуч

Q: 5. Пет-проект для закрепления

Q: Связь с другими вопросами

| Вопрос | Тема | | --- | --- | | 632. Fine-tuning LLM на длинные контексты | Общие стратегии fine-tuning для длинных контекстов | ---

Краткий тезис

Fine-tuning модели на контекст в 1 млн токенов сталкивается с фундаментальными ограничениями памяти и вычислительной сложности из-за квадратичного роста KV cache и внимания. Решение лежит в комбинации методов позиционного кодирования с экстраполяцией (YaRN, NTK-aware scaling), обучении на более коротких контекстах с последующим дообучением на длинных, а также в архитектурных трюках вроде RingAttention и Infini-attention. Полноценный fine-tuning на 1M токенов на одном GPU невозможен без распределённых вычислений и оптимизации памяти.

2. Методы: YaRN, NTK-aware scaling уже в модели

Современные LLM (например, Llama 3, Mistral) используют RoPE (Rotary Position Embedding). RoPE позволяет экстраполировать позиции за пределы обученной длины, но качество падает. Для fine-tuning на длинные контексты применяют:

NTK-aware scaling — изменение частот RoPE так, чтобы высокие частоты оставались чувствительными к локальным позициям, а низкие — к глобальным. Позволяет увеличить контекст в 2–4 раза без дообучения, но для 1M токенов требуется fine-tuning.
YaRN (Yet another RoPE extensioN) — улучшение NTK: вводит коэффициент растяжения для каждого слоя и дополнительный параметр «temperature» для внимания. YaRN даёт плавную экстраполяцию до 128K–256K токенов без fine-tuning, а с дообучением — до 1M.

Важно: эти методы уже встроены в модели (например, Llama 3.1 405B поддерживает 128K контекста через YaRN). Для 1M токенов потребуется fine-tuning с YaRN, но не с нуля — модель уже умеет работать с длинными контекстами, нужно лишь «дотянуть» до 1M.

3. Fine-tuning на меньших контекстах + extrapolation

Стратегия «обучение на коротких, экстраполяция на длинные»:

Базовая модель обучена на 4K–8K токенов.
Промежуточный fine-tuning на 32K–128K токенов с использованием YaRN или NTK. Это даёт модели способность обобщать на длины до 256K.
Финальный fine-tuning на 256K–512K токенов с теми же методами. После этого модель может экстраполировать до 1M с приемлемым качеством (extrapolation).

Почему не сразу 1M? Потому что градиенты и KV cache на 1M токенов не помещаются в память. Постепенное увеличение длины позволяет модели адаптироваться, а также использовать техники gradient checkpointing и micro-batch для уменьшения пикового потребления памяти.

Пример: LongLoRA — fine-tuning с LoRA на длинные контексты, где внимание разбивается на группы (shifted sparse attention). Это снижает сложность до O(L) и позволяет fine-tuning на 256K токенов на одном A100.

4. Инструменты: RingAttention, Infini-attention

Для работы с 1M токенов необходимы распределённые архитектуры внимания:

RingAttention — разбивает последовательность на блоки, распределённые по нескольким GPU. Каждый GPU обрабатывает свой блок, а KV cache передаётся по кольцу. Позволяет обрабатывать контексты до 1M токенов на кластере. Реализован в DeepSpeed Ulysses и Megatron-LM.
Infini-attention — компрессия KV cache в скрытое состояние (memory). Внимание делится на локальное (скользящее окно) и глобальное (сжатое). Позволяет обрабатывать бесконечные контексты с линейной памятью. Используется в Infini-LLM.
FlashAttention-3 — оптимизирует расчёт внимания на GPU, снижая время и память, но не решает проблему хранения KV cache.

Для fine-tuning на 1M токенов обычно комбинируют:

LoRA или QLoRA для уменьшения числа обучаемых параметров.
RingAttention для распределённого внимания.
YaRN для позиционного кодирования.

5. Пет-проект для закрепления

Задача: Реализовать fine-tuning модели LLaMA-3-8B на контекст 1M токенов для анализа кодовой базы (например, суммаризация репозитория). Использовать синтетические данные — длинные файлы кода, склеенные в один контекст.

Инструменты:

Hugging Face Transformers + FlashAttention-2.
PEFT (LoRA).
DeepSpeed Ulysses (RingAttention).
YaRN через transformers (параметр rope_scaling).

Шаги:

Подготовить датасет: 1000 примеров, каждый — конкатенация файлов кода (Python, Java) до 1M токенов. Разметить задачу: «напиши краткое описание репозитория».
Загрузить модель LLaMA-3-8B с rope_scaling={"type": "yarn", "factor": 8.0} (для 128K контекста).
Настроить LoRA (rank=16) на все линейные слои внимания.
Использовать DeepSpeed Ulysses с 8 GPU (A100 80GB). Каждый GPU получает блок по 128K токенов.
Обучить 1 эпоху с gradient checkpointing и mixed precision (bf16).
Оценить качество на тестовом наборе (длина 1M токенов) — сравнить с базовой моделью без fine-tuning.

Ожидаемый результат:

Модель научится выделять ключевые модули кодовой базы, игнорируя шум.
Потребление памяти на один GPU ~70 ГБ (при 8 GPU).
Время обучения ~2 дня на кластере.

Связь с другими вопросами

Вопрос	Тема
632. Fine-tuning LLM на длинные контексты	Общие стратегии fine-tuning для длинных контекстов