Навигация (Obsidian)

- Предыдущий: [[950. Что такое Pre-training LLM?|950]] - Следующий: [[952. Что такое PEFT?|952]] - Индекс: [[00. Индекс разборов]]

Что такое Fine-tuning LLM? Чем отличается от обучения с нуля (pre-training) с точки зрения данных и вычислительных затрат?

Q: 3. Затраты: pre-training в 100–1000 раз дороже

Сравнение затрат наглядно демонстрирует разницу: | Параметр | Pre-training | Fine-tuning | | --- | --- | --- | | **Объём данных** | Терабайты (10^12 токенов) | Мегабайты–гигабайты (10^6–10^9 токенов) | | **Количество GPU** | 1000–10 000 | 1–16 | | **Время обучения** | Недели–месяцы | Часы–дни |

Q: 4. Данные: размеченные vs неразмеченные

**Pre-training (неразмеченные данные):** - Источники: веб-скрапинг (Common Crawl), книги, статьи, код ([[Вики/GitHub|GitHub]]). - Преимущество: дешевизна сбора — не нужны эксперты-аннотаторы. - Недостаток: шум, дубликаты, токсичный контент — требуется тщательная фильтрация ([[Вики/Data Deduplication|Data Deduplication]], [[Вики/Toxicity Filtering|Toxicity Filtering]]).

Q: 5. Пет-проект для закрепления

**Инструменты:** - [[Вики/Hugging Face Transformers|Hugging Face Transformers]] (модель [[Вики/BERT|BERT]]-base) - [[Вики/PyTorch|PyTorch]] или [[Вики/TensorFlow|TensorFlow]] - Датасет [[Вики/IMDb Reviews|IMDb Reviews]] (50 000 размеченных отзывов) - [[Вики/Google Colab|Google Colab]] (бесплатный GPU T4)

Q: Связь с другими вопросами

| Вопрос | Тема | | --- | --- | | [[Вики/21. Что такое Transfer Learning?|21]] | Transfer Learning — теоретическая основа fine-tuning | | [[Вики/950. Что такое Pre-training LLM?|950]] | Pre-training как предшествующий этап | | [[Вики/952. Что такое PEFT?|952]] | PEFT — альтернатива полному fine-tuning |

Краткий тезис

Fine-tuning — это процесс дообучения предварительно обученной LLM на специализированном датасете для адаптации под конкретную задачу, в то время как pre-training — это обучение модели с нуля на огромных объёмах неразмеченных текстов для получения общих языковых знаний. Основные различия лежат в объёме и типе данных, а также в вычислительных затратах: pre-training требует в 100–1000 раз больше ресурсов.

2. Fine-tuning: адаптация под задачу, маленький датасет

Fine-tuning — это процесс дообучения предварительно обученной модели на небольшом, но качественном датасете, размеченном под конкретную задачу (классификация, суммаризация, генерация ответов и т.д.).

Характеристики данных:

Объём: от сотен до десятков тысяч примеров (например, 1000–10 000 пар «вопрос-ответ» для Instruction Tuning).
Тип: размеченные (labeled) данные — каждый пример содержит вход и ожидаемый выход (например, Supervised Fine-Tuning).
Специфичность: данные узконаправлены под задачу (юридические документы, медицинские записи, диалоги поддержки).

Вычислительные затраты:

Оборудование: одна или несколько GPU (например, RTX 4090 или A10G).
Время: часы или дни (например, fine-tuning Llama 2 7B на 1000 примерах занимает 2–4 часа на одной A100).
Стоимость: десятки–сотни долларов (ориентировочно $50–500 за сессию на облачных GPU).
Энергопотребление: единицы киловатт-часов.

Результат: специализированная модель (fine-tuned model), которая превосходит базовую в конкретной задаче, но может потерять часть общих знаний (Catastrophic Forgetting).

3. Затраты: pre-training в 100–1000 раз дороже

Сравнение затрат наглядно демонстрирует разницу:

Параметр	Pre-training	Fine-tuning
Объём данных	Терабайты (10^12 токенов)	Мегабайты–гигабайты (10^6–10^9 токенов)
Количество GPU	1000–10 000	1–16
Время обучения	Недели–месяцы	Часы–дни
Стоимость (ориентир.)	$1–10 млн	$50–5000
Энергия	100–1000 МВт·ч	0.1–10 кВт·ч
Требования к данным	Неразмеченные	Размеченные

Почему такая разница?

Pre-training требует обработки каждого токена через всю сеть на каждом шаге — это O(N * L) операций, где N — число параметров, L — длина последовательности.
Fine-tuning использует уже обученные веса и лишь корректирует их на малом датасете — градиенты быстро сходятся, так как модель уже близка к оптимуму.

4. Данные: размеченные vs неразмеченные

Pre-training (неразмеченные данные):

Источники: веб-скрапинг (Common Crawl), книги, статьи, код (GitHub).
Преимущество: дешевизна сбора — не нужны эксперты-аннотаторы.
Недостаток: шум, дубликаты, токсичный контент — требуется тщательная фильтрация (Data Deduplication, Toxicity Filtering).

Fine-tuning (размеченные данные):

Источники: ручная аннотация, синтетическая генерация (Self-Instruct), датасеты с платформ (Hugging Face Datasets).
Преимущество: высокая точность и релевантность задаче.
Недостаток: высокая стоимость разметки (например, $0.10–$1 за пример для юридических текстов).

Пример: Для fine-tuning модели поддержки клиентов нужно собрать 5000 диалогов с правильными ответами — это требует работы 2–3 аннотаторов в течение недели. Для pre-training той же модели потребуется 500 млрд токенов из интернета — автоматически, но с последующей чисткой.

5. Пет-проект для закрепления

Задача: Сравнить затраты и качество fine-tuning и pre-training на примере классификации тональности отзывов.

Инструменты:

Hugging Face Transformers (модель BERT-base)
PyTorch или TensorFlow
Датасет IMDb Reviews (50 000 размеченных отзывов)
Google Colab (бесплатный GPU T4)

Шаги:

Загрузите предобученный BERT-base (110M параметров) — это аналог pre-training.
Fine-tune модель на 1000 размеченных отзывах (5 минут на T4).
Оцените точность на тестовой выборке (ожидаемая accuracy ~90%).
Для сравнения: попробуйте обучить BERT с нуля на 1000 отзывах (без pre-training) — accuracy упадёт до ~60%, а время обучения вырастет до 2 часов.
Зафиксируйте разницу в стоимости: fine-tuning на Colab бесплатно, pre-training на том же объёме данных потребовал бы $10–20 на облачных GPU.

Ожидаемый результат:

Fine-tuning даёт высокое качество (90%) при минимальных затратах (5 минут, 0 GPU-часов).
Pre-training на малом датасете неэффективен (60%, 2 часа) — подтверждает необходимость огромных корпусов.
Вывод: fine-tuning — экономичный способ адаптации, pre-training — дорогой фундамент.

Связь с другими вопросами

Вопрос	Тема
21	Transfer Learning — теоретическая основа fine-tuning
950	Pre-training как предшествующий этап
952	PEFT — альтернатива полному fine-tuning