Когда вы выбираете fine-tuning вместо RAG, а когда — наоборот?

Q: Краткий тезис

Выбор между **[[Вики/SFT\|fine-tuning]]** ([[Вики/SFT\|дообучение]] модели) и [[Вики/гибридный поиск\|RAG]] ([[Вики/retrieval\|дополнение генерации поиском]]) определяется тем, что именно нужно улучшить: если требуется обновить *знания* или добавить актуальную информацию — выбирайте [[Вики/гибридный поиск\|RAG]]; если нужно изменить *поведение* модели (стиль, тон, формат ответов) или встроить [[Вики/sensitive data\|конфиденциальные данные]] прямо в веса — выбирайте [[Вики/SFT\|fine-tuning]]. На

Q: 1. Термины: Fine-tuning и RAG

- **[[Вики/SFT\|Fine-tuning]] ([[Вики/SFT\|дообучение]])** — процесс продолжения обучения уже предобученной модели ([[Вики/LLM\|LLM]]) на небольшом, тщательно размеченном наборе данных. Цель — адаптировать [[Вики/model\|модель]] под конкретную задачу, стиль общения или знания, жёстко «зашитые» в параметры.

Q: 2.1 Требуется кастомное поведение

Если вам нужно, чтобы [[Вики/model\|модель]] говорила как сотрудник корпоративной техподдержки, отвечала строго по шаблону, избегала определённых оборотов или генерировала ответы в вёрстке [[Вики/Markdown\|Markdown]] — [[Вики/SFT\|fine-tuning]] справится лучше [[Вики/гибридный поиск\|RAG]]. [[Вики/LLM\|LLM]] «запоминает» стиль и применяет его даже без внешнего контекста.

Q: 2.2 Конфиденциальные данные не покидают вашу инфраструктуру

При использовании [[Вики/гибридный поиск\|RAG]] через облачный [[Вики/API\|API]] документы приходится эмбеддировать и хранить на стороне провайдера (или своего, но могут быть риски утечки). [[Вики/SFT\|Fine-tuning]] позволяет обучить локальную [[Вики/model\|модель]] с встроенными правилами обработки чувствительной информации — все данные остаются у вас.

Краткий тезис

Выбор между fine-tuning (дообучение модели) и RAG (дополнение генерации поиском) определяется тем, что именно нужно улучшить: если требуется обновить знания или добавить актуальную информацию — выбирайте RAG; если нужно изменить поведение модели (стиль, тон, формат ответов) или встроить конфиденциальные данные прямо в веса — выбирайте fine-tuning. На практике часто используют гибрид: fine-tuned модель + RAG, чтобы получить лучшее от обоих подходов.

1. Термины: Fine-tuning и RAG

Fine-tuning (дообучение) — процесс продолжения обучения уже предобученной модели (LLM) на небольшом, тщательно размеченном наборе данных. Цель — адаптировать модель под конкретную задачу, стиль общения или знания, жёстко «зашитые» в параметры.
RAG (Retrieval-Augmented Generation) — архитектура, при которой перед генерацией ответа модель получает релевантные фрагменты документов из внешней базы знаний (векторного хранилища). Знания не хранятся в весах модели, а подгружаются динамически из retrieval (поиска).

Аспект	Fine-tuning	RAG
Хранение знаний	Веса модели (статичное)	Внешняя БД (динамичное)
Обновление знаний	Заново обучать модель	Добавить/изменить документы
Изменение поведения	Да (тон, формат, стиль)	Нет (влияет только контекст)
Прозрачность ответов	Низкая (почему ответил так?)	Высокая (можно показать источники)
Требования к данным	100–10k качественных пар вопрос-ответ	Документы + эмбеддинги

2. Когда выбирать Fine-tuning

2.1 Требуется кастомное поведение

Если вам нужно, чтобы модель говорила как сотрудник корпоративной техподдержки, отвечала строго по шаблону, избегала определённых оборотов или генерировала ответы в вёрстке Markdown — fine-tuning справится лучше RAG. LLM «запоминает» стиль и применяет его даже без внешнего контекста.

2.2 Конфиденциальные данные не покидают вашу инфраструктуру

При использовании RAG через облачный API документы приходится эмбеддировать и хранить на стороне провайдера (или своего, но могут быть риски утечки). Fine-tuning позволяет обучить локальную модель с встроенными правилами обработки чувствительной информации — все данные остаются у вас.

2.3 Высокая скорость инференса

Fine-tuned модель после обучения требует лишь одного прямого прохода (один вызов LLM). RAG добавляет этапы: превращение запроса в эмбеддинг, поиск по векторной БД, sometimes reranking. Это снижает скорость. Для систем реального времени (чат с низкой задержкой) fine-tuning предпочтительнее.

2.4 Статичные и нечастые обновления знаний

Если база знаний меняется раз в полгода и объём невелик (до нескольких тысяч правил), можно «зашить» её в веса. Например, фирменные процедуры компании, которые редко обновляются.

3. Когда выбирать RAG

3.1 Большой, часто меняющийся объём знаний

Когда документов больше 10 000, они обновляются ежедневно или даже в реальном времени (новости, цены, юридические акты) — fine-tuning становится неоправданно дорогим и медленным. RAG позволяет обновлять знания простым добавлением файлов.

Характеристика	Fine-tuning	RAG
Частота обновления знаний	Низкая (раз в несколько месяцев)	Высокая (хоть каждый час)
Масштабирование знаний	Требует переобучения	Простое добавление чанков
Ёмкость хранимых знаний	Ограничена размером модели	Практически безлимитна

3.2 Требуется актуальность «на сегодня»

Если система должна отвечать, основываясь на свежих курсах валют, новостях или текущей погоде — RAG незаменим. Fine-tuning не может гарантировать актуальность между сеансами обучения: модель «знает» только то, что было в датасете на момент last checkpoint.

3.3 Прозрачность и верифицируемость ответов

В медицине, юриспруденции, финансах важно не только получить ответ, но и понять, на основании каких документов он дан. RAG легко предоставляет источники (citation). Fine-tuning этого не даёт — модель может сгенерировать обоснование, но оно может быть галлюцинацией.

3.4 Быстрый прототип и низкие начальные затраты

Для RAG не нужно собирать размеченный датасет (достаточно документов) и тратить GPU-часы на обучение. Можно использовать любую готовую LLM (через API) и готовые векторные БД (Pinecone, Chroma). RAG часто выгоднее для проверки гипотезы.

4. Компромиссные сценарии и гибрид

4.1 Golden rule: RAG для знаний, Fine-tuning для поведения

Наиболее эффективная стратегия в production — гибрид:

Fine-tuning — обучаем модель корпоративному тону, формату ответов и правилам безопасности.
RAG — подгружаем актуальные документы, коды продуктов, внутренние регламенты.

Архитектура: [Вики/Prompt engineering|запрос → Вики/Fine-tuned model|Fine-tuned LLM (с префиксом RAG-контекста) → ответ.

4.2 Пример индустрии

Customer support: модель, дообученная на истории диалогов (вежливый тон, эскалация) + RAG по базе знаний продуктов (цены, гарантии).
Медицинский ассистент: fine-tuning на клинический стиль и формат `[симптомы → диагноз]. RAG — доступ к свежим статьям PubMed и протоколам.
Юридический консультант: fine-tuning на шаблоны договоров и тон «официальное письмо». RAG — актуальные законы и судебная практика.

4.3 Decision Tree: краткий алгоритм выбора

Нужно ли менять поведение модели (стиль, формат, тон)
- Да → рассматривай fine-tuning (возможно, в комбинации с RAG).
- Нет → чистый RAG, если знания меняются.
Знания статичны и объём мал
- Да → Fine-tuning или просто prompt engineering.
- Нет → RAG.
Конфиденциальность критична
- Да → Локальный fine-tuning (или on-premise RAG с самостоятельным хостингом эмбеддеров).
- Нет → Можно облачный RAG.
Задержка ответа важнее всего
- Да → Fine-tuning (меньше latency).
- Нет → RAG (допускается 1-2 сек доп. времени).

5. Стоимость и ресурсы

Ресурс	Fine-tuning	RAG
Начальные затраты	GPU-часы (10–100+ $)	Развёртывание БД, индексация (0–50 $)
Операционные затраты	Низкие (один проход LLM)	Средние (эмбеддинг + поиск + LLM)
Обучение/поддержка	Требует ML-инженера	Требует инженера данных
Масштабирование знаний	Тяжёлое (переобучение)	Лёгкое (добавить чанки)

Экономически: для небольших статичных задач fine-tuning дешевле в долгосрочной перспективе; для динамичных и больших данных RAG выгоднее.

6. Анализ рисков

Fine-tuning
- Галлюцинации по устаревшим данным — если знания изменились, модель может упорно выдавать старое.
- Переобучение (overfitting) на маленьком датасете.
- Забывание (catastrophic forgetting) старых качеств модели.
RAG
- Зависимость от качества retrieval — плохой поиск → плохой ответ.
- Задержка и стоимость при большом load.
- Утечка конфиденциальных документов через API.

7. Code Example: Гибрид (Fine-tuned LLM + RAG) на LangChain

from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain.llms import HuggingFacePipeline
from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer

# 1. Загружаем fine-tuned модель (локально)
model_name = "./my_fine_tuned_qwen"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, max_length=1024)
llm = HuggingFacePipeline(pipeline=pipe)

# 2. RAG retrieval
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
vectorstore = Chroma(persist_directory="./kb", embedding_function=embeddings)
retriever = vectorstore.as_retriever(search_kwargs={"k": 3})

# 3. Гибридный промпт
from langchain_core.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate.from_template("""
Вы — вежливый консультант. Отвечайте строго по контексту, используя официальный тон.
Контекст: {context}
Вопрос: {question}
Ответ:
""")

# 4. Цепочка
chain = (
    {"context": retriever, "question": lambda x: x["question"]}
    | prompt
    | llm
)

chain.invoke({"question": "Какую гарантию дают на ноутбук?"})

Пет-проект для закрепления

Задача

Создайте чат-бота для внутренней базы знаний компании с кастомным стилем ответов (вежливо, кратко, с обязательной ссылкой на источник). Предположим, база знаний содержит ~5000 документов, которые обновляются раз в квартал. Стиль ответов должен быть единообразным.

Инструменты

Fine-tuning: Qwen 2.5 1.5B (малая модель) + датасет 500 пар вопрос-ответ в нужном стиле + LoRA.
RAG: ChromaDB + sentence-transformers для эмбеддингов + LangChain.
Гибрид: Fine-tuned модель получает контекст из RAG.

Шаги

Соберите 500 примеров диалогов из реальной переписки техподдержки.
Дообучите модель (3 эпохи, LoRA rank=8) на корпусе инструкций «ответь в стиле X».
Разбейте документы на чанки по 512 токенов, создайте векторную БД.
Напишите pipeline: запрос → retrieval (3 чанка) → форматированный промпт → fine-tuned LLM.
Оцените результат на тестовых вопросах (сравните с чистым RAG и чистым fine-tuning).

Ожидаемый результат

Гибридная система, которая:

Сохраняет единый корпоративный тон;
Даёт ответы на основе актуальных документов;
Указывает номер документа-источника;
Работает со временем ответа < 2 секунд на CPU (для малой модели).

Связь с другими вопросами

Вопрос	Тема
19	Какие стратегии chunking'а вы знаете и когда какую применяете
20	Как вы оцениваете качество fine-tuning
22	Как вы решаете проблему устаревания знаний в RAG
25	Как вы выбираете базовую модель для fine-tuning
18	Что такое Self-RAG и когда его использовать
1	Как спроектировать RAG-систему для большого количества документов

Краткий тезис

1. Термины: Fine-tuning и RAG

Fine-tuning (дообучение) — процесс продолжения обучения уже предобученной модели (LLM) на небольшом, тщательно размеченном наборе данных. Цель — адаптировать модель под конкретную задачу, стиль общения или знания, жёстко «зашитые» в параметры.
RAG (Retrieval-Augmented Generation) — архитектура, при которой перед генерацией ответа модель получает релевантные фрагменты документов из внешней базы знаний (векторного хранилища). Знания не хранятся в весах модели, а подгружаются динамически из retrieval (поиска).

Аспект	Fine-tuning	RAG
Хранение знаний	Веса модели (статичное)	Внешняя БД (динамичное)
Обновление знаний	Заново обучать модель	Добавить/изменить документы
Изменение поведения	Да (тон, формат, стиль)	Нет (влияет только контекст)
Прозрачность ответов	Низкая (почему ответил так?)	Высокая (можно показать источники)
Требования к данным	100–10k качественных пар вопрос-ответ	Документы + эмбеддинги

2. Когда выбирать Fine-tuning

2.1 Требуется кастомное поведение

2.2 Конфиденциальные данные не покидают вашу инфраструктуру

2.3 Высокая скорость инференса

2.4 Статичные и нечастые обновления знаний

3. Когда выбирать RAG

3.1 Большой, часто меняющийся объём знаний

Характеристика	Fine-tuning	RAG
Частота обновления знаний	Низкая (раз в несколько месяцев)	Высокая (хоть каждый час)
Масштабирование знаний	Требует переобучения	Простое добавление чанков
Ёмкость хранимых знаний	Ограничена размером модели	Практически безлимитна

3.2 Требуется актуальность «на сегодня»

3.3 Прозрачность и верифицируемость ответов

3.4 Быстрый прототип и низкие начальные затраты

4. Компромиссные сценарии и гибрид

4.1 Golden rule: RAG для знаний, Fine-tuning для поведения

Наиболее эффективная стратегия в production — гибрид:

Fine-tuning — обучаем модель корпоративному тону, формату ответов и правилам безопасности.
RAG — подгружаем актуальные документы, коды продуктов, внутренние регламенты.

Архитектура: [Вики/Prompt engineering|запрос → Вики/Fine-tuned model|Fine-tuned LLM (с префиксом RAG-контекста) → ответ.

4.2 Пример индустрии

Customer support: модель, дообученная на истории диалогов (вежливый тон, эскалация) + RAG по базе знаний продуктов (цены, гарантии).
Медицинский ассистент: fine-tuning на клинический стиль и формат `[симптомы → диагноз]. RAG — доступ к свежим статьям PubMed и протоколам.
Юридический консультант: fine-tuning на шаблоны договоров и тон «официальное письмо». RAG — актуальные законы и судебная практика.

4.3 Decision Tree: краткий алгоритм выбора

Нужно ли менять поведение модели (стиль, формат, тон)
- Да → рассматривай fine-tuning (возможно, в комбинации с RAG).
- Нет → чистый RAG, если знания меняются.
Знания статичны и объём мал
- Да → Fine-tuning или просто prompt engineering.
- Нет → RAG.
Конфиденциальность критична
- Да → Локальный fine-tuning (или on-premise RAG с самостоятельным хостингом эмбеддеров).
- Нет → Можно облачный RAG.
Задержка ответа важнее всего
- Да → Fine-tuning (меньше latency).
- Нет → RAG (допускается 1-2 сек доп. времени).

5. Стоимость и ресурсы

Ресурс	Fine-tuning	RAG
Начальные затраты	GPU-часы (10–100+ $)	Развёртывание БД, индексация (0–50 $)
Операционные затраты	Низкие (один проход LLM)	Средние (эмбеддинг + поиск + LLM)
Обучение/поддержка	Требует ML-инженера	Требует инженера данных
Масштабирование знаний	Тяжёлое (переобучение)	Лёгкое (добавить чанки)

6. Анализ рисков

Fine-tuning
- Галлюцинации по устаревшим данным — если знания изменились, модель может упорно выдавать старое.
- Переобучение (overfitting) на маленьком датасете.
- Забывание (catastrophic forgetting) старых качеств модели.
RAG
- Зависимость от качества retrieval — плохой поиск → плохой ответ.
- Задержка и стоимость при большом load.
- Утечка конфиденциальных документов через API.

7. Code Example: Гибрид (Fine-tuned LLM + RAG) на LangChain

from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain.llms import HuggingFacePipeline
from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer

# 1. Загружаем fine-tuned модель (локально)
model_name = "./my_fine_tuned_qwen"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, max_length=1024)
llm = HuggingFacePipeline(pipeline=pipe)

# 2. RAG retrieval
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
vectorstore = Chroma(persist_directory="./kb", embedding_function=embeddings)
retriever = vectorstore.as_retriever(search_kwargs={"k": 3})

# 3. Гибридный промпт
from langchain_core.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate.from_template("""
Вы — вежливый консультант. Отвечайте строго по контексту, используя официальный тон.
Контекст: {context}
Вопрос: {question}
Ответ:
""")

# 4. Цепочка
chain = (
    {"context": retriever, "question": lambda x: x["question"]}
    | prompt
    | llm
)

chain.invoke({"question": "Какую гарантию дают на ноутбук?"})

Пет-проект для закрепления

Задача

Инструменты

Fine-tuning: Qwen 2.5 1.5B (малая модель) + датасет 500 пар вопрос-ответ в нужном стиле + LoRA.
RAG: ChromaDB + sentence-transformers для эмбеддингов + LangChain.
Гибрид: Fine-tuned модель получает контекст из RAG.

Шаги

Соберите 500 примеров диалогов из реальной переписки техподдержки.
Дообучите модель (3 эпохи, LoRA rank=8) на корпусе инструкций «ответь в стиле X».
Разбейте документы на чанки по 512 токенов, создайте векторную БД.
Напишите pipeline: запрос → retrieval (3 чанка) → форматированный промпт → fine-tuned LLM.
Оцените результат на тестовых вопросах (сравните с чистым RAG и чистым fine-tuning).

Ожидаемый результат

Гибридная система, которая:

Сохраняет единый корпоративный тон;
Даёт ответы на основе актуальных документов;
Указывает номер документа-источника;
Работает со временем ответа < 2 секунд на CPU (для малой модели).

Связь с другими вопросами

Вопрос	Тема
19	Какие стратегии chunking'а вы знаете и когда какую применяете
20	Как вы оцениваете качество fine-tuning
22	Как вы решаете проблему устаревания знаний в RAG
25	Как вы выбираете базовую модель для fine-tuning
18	Что такое Self-RAG и когда его использовать
1	Как спроектировать RAG-систему для большого количества документов

Когда вы выбираете fine-tuning вместо RAG, а когда — наоборот?

Краткий тезис

1. Термины: Fine-tuning и RAG

2. Когда выбирать Fine-tuning

2.1 Требуется кастомное поведение

2.2 Конфиденциальные данные не покидают вашу инфраструктуру

2.3 Высокая скорость инференса

2.4 Статичные и нечастые обновления знаний

3. Когда выбирать RAG

3.1 Большой, часто меняющийся объём знаний

3.2 Требуется актуальность «на сегодня»

3.3 Прозрачность и верифицируемость ответов

3.4 Быстрый прототип и низкие начальные затраты

4. Компромиссные сценарии и гибрид

4.1 Golden rule: RAG для знаний, Fine-tuning для поведения

4.2 Пример индустрии

4.3 Decision Tree: краткий алгоритм выбора

5. Стоимость и ресурсы

6. Анализ рисков

7. Code Example: Гибрид (Fine-tuned LLM + RAG) на LangChain

Пет-проект для закрепления

Задача

Инструменты

Шаги

Ожидаемый результат

Связь с другими вопросами

Навигация

Когда вы выбираете fine-tuning вместо RAG, а когда — наоборот?

Краткий тезис

1. Термины: Fine-tuning и RAG

2. Когда выбирать Fine-tuning

2.1 Требуется кастомное поведение

2.2 Конфиденциальные данные не покидают вашу инфраструктуру

2.3 Высокая скорость инференса

2.4 Статичные и нечастые обновления знаний

3. Когда выбирать RAG

3.1 Большой, часто меняющийся объём знаний

3.2 Требуется актуальность «на сегодня»

3.3 Прозрачность и верифицируемость ответов

3.4 Быстрый прототип и низкие начальные затраты

4. Компромиссные сценарии и гибрид

4.1 Golden rule: RAG для знаний, Fine-tuning для поведения

4.2 Пример индустрии

4.3 Decision Tree: краткий алгоритм выбора

5. Стоимость и ресурсы

6. Анализ рисков

7. Code Example: Гибрид (Fine-tuned LLM + RAG) на LangChain

Пет-проект для закрепления

Задача

Инструменты

Шаги

Ожидаемый результат

Связь с другими вопросами

Навигация