Какие LLM для русского языка вы используете?

Q: Краткий тезис

Выбор [[Вики/LLM|LLM]] для русского языка определяется балансом между качеством генерации, стоимостью инференса, контролем над данными и [[Вики/TTFT|latency]]. Среди открытых моделей [[Вики/Llama-3-8B|Llama-3-8B]] после **[[Вики/SFT|fine-tuning]]** на русских данных показывает лучшее качество для [[Вики/self-hosted|self-hosted]] сценариев. Для быстрого старта без инфраструктурных затрат подходят закрытые [[Вики/API|API]]: [[Вики/YandexGPT|YandexGPT]] (отличный русский, платный) и [[Вики/T-lite-i

Q: 1. Введение: почему выбор LLM для русского языка — нетривиальная задача

Русский язык отличается от английского морфологией, синтаксисом и объёмом доступных обучающих данных. Большинство фундаментальных моделей ([[Вики/LLM|GPT-4]], [[Вики/Claude API|Claude]], [[Вики/Gemini|Gemini]]) обучаются преимущественно на английском, поэтому их качество на русском может быть ниже. Для production-систем критичны:

Q: 2. Критерии выбора LLM для русского языка

Перед выбором модели необходимо определить: - [[Вики/бюджет|Бюджет]] на [[Вики/inference|инференс]] (есть ли [[Вики/GPU|GPU]], готовы ли платить за [[Вики/API|API]]). - Требования к [[Вики/TTFT|latency]] (допустимо ли 2–5 секунд или нужно <500 мс). - Необходимость [[Вики/SFT|fine-tuning]] (нужна ли [[Вики/SFT|дообучение]] под специфическую задачу).

Q: 3.1 Llama-3-8B (multilingual)

Meta выпустила [[Вики/Transformer|Llama-3]] с улучшенной мультиязычной токенизацией. [[Вики/model|Модель]] 8B (8 миллиардов параметров) показывает лучшее качество на русском среди открытых моделей своего размера. После [[Вики/SFT|fine-tuning]] на русских инструкциях (например, на датасете [[Вики/RuTurboAlpaca|RuTurboAlpaca]]) она способна конкурировать с [[Вики/YandexGPT|YandexGPT]] по ряду задач.

Q: 3.2 Saiga (Илья Гусев)

Серия моделей [[Вики/Saiga|Saiga]] (на базе [[Вики/Llama|LLaMA-2]], [[Вики/Llama|LLaMA-3]], [[Вики/Mistral|Mistral]]) дообучена на русских инструкциях и диалогах. Доступна в размерах 7B, 13B, 70B. Saiga-3-8B — одна из лучших open-source моделей для русского языка. Плюсы - Готова к использованию без дополнительного [[Вики/fine-tuning|fine-tuning]].

Q: 3.3 Другие открытые модели

- [[Вики/Qwen 2.5 1.5B|Qwen-7B/14B]] (Alibaba) — мультиязычная, неплохой русский, но уступает [[Вики/Llama|Llama-3]]. - [[Вики/ruGPT-3.5|ruGPT-3.5]] (Sber) — закрытая, но есть open-source версии (например, ruGPT-3.5-13B). Качество ниже современных моделей. - [[Вики/Mistral-7B|Mistral-7B]] — отличная база, но требует [[Вики/fine-tuning|fine-tuning]] на русском.

Q: 4. Сравнение YandexGPT vs GigaChat (2026)

| Характеристика | YandexGPT | GigaChat | |---------------|-----------|----------| | Модели | Lite, Pro | Lite, Pro | | Контекст | до 32k токенов | до 32k токенов | | API | REST, gRPC | REST | | Fine-tuning | через платформу | нет публичного | | Цена | ~₽5-50/1K токенов | ~₽4-40/1K токенов |

Q: 5.1 YandexGPT

Флагманская [[Вики/model|модель]] Яндекса, обученная на огромном корпусе русского текста. Доступна через Yandex [[Вики/Облако|Cloud]] ([[Вики/API|API]]) и в продуктах (Алиса, [[Вики/YandexGPT|YandexGPT]] для бизнеса). Плюсы - Лучшее качество русского языка среди всех моделей (включая грамматику, стиль, факты).

Ниже представлен обновлённый документ с добавленным разделом 4 (сравнение YandexGPT vs GigaChat) и соответствующей перенумерацией последующих разделов. Все оригинальные разделы сохранены, изменены только номера заголовков (бывшие 4 → 5, 5 → 6, …, 12 → 13). Внутренние ссылки на вики‑страницы, другие файлы и номера вопросов остались нетронутыми.

---
теги: [разбор, LLM, русский язык]
вопрос: 78
---

## Краткий тезис

Выбор [[Вики/LLM|LLM]] для русского языка определяется балансом между качеством генерации, стоимостью инференса, контролем над данными и [[Вики/TTFT|latency]]. Среди открытых моделей [[Вики/Llama-3-8B|Llama-3-8B]] после **[[Вики/SFT|fine-tuning]]** на русских данных показывает лучшее качество для [[Вики/self-hosted|self-hosted]] сценариев. Для быстрого старта без инфраструктурных затрат подходят закрытые [[Вики/API|API]]: [[Вики/YandexGPT|YandexGPT]] (отличный русский, платный) и [[Вики/T-lite-instruct|T-lite-instruct]] от Tinkoff (бесплатный, лёгкий). [[Вики/Saiga|Saiga]] от Ильи Гусева — популярная open-source альтернатива, основанная на [[Вики/Transformer|LLaMA]].

---

## 1. Введение: почему выбор LLM для русского языка — нетривиальная задача

Русский язык отличается от английского морфологией, синтаксисом и объёмом доступных обучающих данных. Большинство фундаментальных моделей ([[Вики/LLM|GPT-4]], [[Вики/Claude API|Claude]], [[Вики/Gemini|Gemini]]) обучаются преимущественно на английском, поэтому их качество на русском может быть ниже. Для production-систем критичны:

- Качество генерации (адекватность, [[Вики/grammar|грамматика]], стиль).
- Стоимость инференса (токены, time|время GPU).
- Контроль данных (юридические требования, конфиденциальность).
- [[Вики/TTFT|Latency]] ([[Вики/Latency|время ответа]] для [[Вики/runtime|real-time]] приложений).
- Возможность [[Вики/SFT|fine-tuning]] ([[Вики/Evolution|адаптация]] под [[Вики/source|домен]]).

На рынке представлены как открытые модели (можно развернуть локально), так и закрытые [[Вики/API|API]]. Рассмотрим основные варианты.

---

## 2. Критерии выбора LLM для русского языка

Перед выбором модели необходимо определить:

- [[Вики/бюджет|Бюджет]] на [[Вики/inference|инференс]] (есть ли [[Вики/GPU|GPU]], готовы ли платить за [[Вики/API|API]]).
- Требования к [[Вики/TTFT|latency]] (допустимо ли 2–5 секунд или нужно <500 мс).
- Необходимость [[Вики/SFT|fine-tuning]] (нужна ли [[Вики/SFT|дообучение]] под специфическую задачу).
- Объём контекста (достаточно ли 4K–8K токенов или нужен 128K).
- Юридические [[Вики/constraints|ограничения]] (можно ли отправлять данные на внешние сервера).

Эти критерии помогут отсеять неподходящие варианты.

---

## 3. Открытые модели (self-hosted)

### 3.1 Llama-3-8B (multilingual)

Meta выпустила [[Вики/Transformer|Llama-3]] с улучшенной мультиязычной токенизацией. [[Вики/model|Модель]] 8B (8 миллиардов параметров) показывает лучшее качество на русском среди открытых моделей своего размера. После [[Вики/SFT|fine-tuning]] на русских инструкциях (например, на датасете [[Вики/RuTurboAlpaca|RuTurboAlpaca]]) она способна конкурировать с [[Вики/YandexGPT|YandexGPT]] по ряду задач.

Плюсы
- Высокое качество после дообучения.
- Открытый вес, можно развернуть локально.
- Активное сообщество, множество адаптаций.

Минусы
- Требует [[Вики/GPU|GPU]] с 16+ ГБ [[Вики/GPU memory|VRAM]] для инференса (например, [[Вики/A10G|A10G]], L4).
- [[Вики/baseline|Базовая модель]] не оптимизирована под русский — обязателен [[Вики/SFT|fine-tuning]].

### 3.2 Saiga (Илья Гусев)

Серия моделей [[Вики/Saiga|Saiga]] (на базе [[Вики/Llama|LLaMA-2]], [[Вики/Llama|LLaMA-3]], [[Вики/Mistral|Mistral]]) дообучена на русских инструкциях и диалогах. Доступна в размерах 7B, 13B, 70B. Saiga-3-8B — одна из лучших open-source моделей для русского языка.

Плюсы
- Готова к использованию без дополнительного [[Вики/fine-tuning|fine-tuning]].
- Хорошо справляется с диалогами, суммаризацией, генерацией текста.
- Бесплатна, [[Вики/Apache 2.0|Apache 2.0]].

Минусы
- Качество может уступать [[Вики/Llama|Llama-3-8B]] после [[Вики/fine-tuning|fine-tuning]] на специфическом домене.
- Меньше сообщества, чем у оригинальной [[Вики/Llama|LLaMA]].

### 3.3 Другие открытые модели

- [[Вики/Qwen 2.5 1.5B|Qwen-7B/14B]] (Alibaba) — мультиязычная, неплохой русский, но уступает [[Вики/Llama|Llama-3]].
- [[Вики/ruGPT-3.5|ruGPT-3.5]] (Sber) — закрытая, но есть open-source версии (например, ruGPT-3.5-13B). Качество ниже современных моделей.
- [[Вики/Mistral-7B|Mistral-7B]] — отличная база, но требует [[Вики/fine-tuning|fine-tuning]] на русском.

---

## 4. Сравнение YandexGPT vs GigaChat (2026)

| Характеристика | YandexGPT | GigaChat |
|---------------|-----------|----------|
| Модели | Lite, Pro | Lite, Pro |
| Контекст | до 32k токенов | до 32k токенов |
| API | REST, gRPC | REST |
| Fine-tuning | через платформу | нет публичного |
| Цена | ~₽5-50/1K токенов | ~₽4-40/1K токенов |

**Когда что выбирать:**
- YandexGPT: лучше интеграция с экосистемой Яндекса, поисковая выдача
- GigaChat: Code generation (GigaCode), безопасность (Сбер)

Заметки:
Дополнить обзор LLM для русского языка актуальными данными по YandexGPT и GigaChat

---

## 5. Закрытые модели (API)

### 5.1 YandexGPT

Флагманская [[Вики/model|модель]] Яндекса, обученная на огромном корпусе русского текста. Доступна через Yandex [[Вики/Облако|Cloud]] ([[Вики/API|API]]) и в продуктах (Алиса, [[Вики/YandexGPT|YandexGPT]] для бизнеса).

Плюсы
- Лучшее качество русского языка среди всех моделей (включая грамматику, стиль, факты).
- Не требует инфраструктуры — платите за [[Вики/cost|токены]].
- Поддерживает [[Вики/fine-tuning|fine-tuning]] через [[Вики/API|API]] ([[Вики/YandexGPT|YandexGPT]] Lite/Pro).

Минусы
- Закрытая, данные уходят на сервера Яндекса.
- [[Вики/cost|Стоимость]]: ~0.5–2 рубля за 1000 токенов (зависит от тарифа).
- [[Вики/Latency|Latency]] выше, чем у локальной модели (сетевая [[Вики/Latency|задержка]]).

### 5.2 T-lite-instruct (Tinkoff)

Лёгкая [[Вики/model|модель]] от Tinkoff (1.3B параметров), доступная бесплатно через [[Вики/API|API]]. Основана на архитектуре [[Вики/Transformer|GPT-2]] и дообучена на русских инструкциях.

Плюсы
- Бесплатный [[Вики/API|API]] (с ограничениями по [[Вики/throughput|RPS]]).
- Очень быстрая (маленькая [[Вики/model|модель]]).
- Подходит для простых задач: классификация, [[Вики/retrieval|извлечение]], короткие ответы.

Минусы
- Качество генерации ограничено размером.
- Не подходит для сложных рассуждений или длинных текстов.
- Нет [[Вики/fine-tuning|fine-tuning]] через [[Вики/API|API]].

### 5.3 GigaChat (Sber)

[[Вики/model|Модель]] от Сбера, доступна через [[Вики/API|API]]. Поддерживает русский, но качество уступает [[Вики/YandexGPT|YandexGPT]]. Есть бесплатный тариф с ограничениями.

---

## 6. Сравнительная таблица

| Модель | Тип | Качество русского | Стоимость | Fine-tuning | Latency | Размер |
|--------|-----|------------------|-----------|-------------|---------|--------|
| **Llama-3-8B** (fine-tuned) | Открытая | ★★★★★ | Бесплатно (GPU) | Да | Низкая (локально) | 8B |
| [[Вики/YandexGPT|YandexGPT]] | Закрытая API | ★★★★★ | Платно (0.5–2 руб/1K токенов) | Да (через API) | Средняя (сеть) | ~? |
| **Saiga-3-8B** | Открытая | ★★★★☆ | Бесплатно (GPU) | Да | Низкая | 8B |
| [[Вики/T-lite-instruct|T-lite-instruct]] | Закрытая API | ★★★☆☆ | Бесплатно | Нет | Очень низкая | 1.3B |
| [[Вики/GigaChat|GigaChat]] | Закрытая API | ★★★★☆ | Платно/бесплатно (лимит) | Нет | Средняя | ~? |

---

## 7. Fine-tuning под русский язык

Для открытых моделей [[Вики/fine-tuning|fine-tuning]] — ключевой этап. Используются техники [[Вики/LoRA|LoRA]] ([[Вики/LoRA|Low-Rank Adaptation]]) или [[Вики/QLoRA|QLoRA]], позволяющие дообучать [[Вики/model|модель]] на одном [[Вики/GPU|GPU]] с 16–24 ГБ [[Вики/GPU memory|VRAM]].

**Пример кода ([[Вики/Hugging Face|Hugging Face]] + [[Вики/Parameter-Efficient Fine-Tuning|PEFT]]):**

```[python](/wiki/Python)
from [transformers](/wiki/transformers) import [AutoModelForCausalLM](/wiki/AutoModelForCausalLM), [AutoTokenizer](/wiki/AutoTokenizer)
from peft import [LoraConfig](/wiki/LoraConfig), get_peft_model, [TaskType](/wiki/TaskType)
from [datasets](/wiki/Datasets) import load_dataset

[model_name](/wiki/model_name) = "meta-llama/Meta-Llama-3-8B"
[tokenizer](/wiki/tokenizer) = [AutoTokenizer](/wiki/AutoTokenizer).from_pretrained([model_name](/wiki/model_name))
[model](/wiki/model) = [AutoModelForCausalLM](/wiki/AutoModelForCausalLM).from_pretrained([model_name](/wiki/model_name), load_in_4bit=True, [device_map](/wiki/device_map)="auto")

lora_config = [LoraConfig](/wiki/LoraConfig)(
    r=16,
    [lora_alpha](/wiki/lora_alpha)=32,
    [target_modules](/wiki/target_modules)=["[q_proj](/wiki/q_proj)", "[v_proj](/wiki/v_proj)"],
    lora_dropout=0.05,
    [bias](/wiki/bias)="none",
    task_type=[TaskType](/wiki/TaskType).CAUSAL_LM
)
[model](/wiki/model) = get_peft_model([model](/wiki/model), lora_config)

[dataset](/wiki/dataset) = load_dataset("[json](/wiki/JSON)", data_files="russian_instructions.[jsonl](/wiki/JSONL)")
# ... обучение

Популярные [[Вики/датасеты|датасеты]] для русского [[Вики/fine-tuning|fine-tuning]]

[[Вики/RuTurboAlpaca|RuTurboAlpaca]] — 50K инструкций на русском.
[[Вики/RuShareGPT|RuShareGPT]] — диалоги.
[[Вики/Russian SuperGLUE|Russian SuperGLUE]] — задачи понимания языка.

8. Self-hosted vs API: когда что выбирать

Сценарий	Рекомендация
Конфиденциальные данные (медицина, финансы)	Self-hosted (Llama-3-8B fine-tuned)
Высокие требования к latency (<1 сек)	Self-hosted (T-lite или Llama-3-8B с квантованием)
Быстрый прототип, нет GPU	YandexGPT API
Бесплатный эксперимент	T-lite-instruct API или Saiga локально
Сложные рассуждения, генерация кода	YandexGPT или Llama-3-70B (если есть ресурсы)

9. Оценка качества на русском языке

Для объективного сравнения моделей используют [[Вики/Benchmarks|бенчмарки]]:

[[Вики/Russian SuperGLUE|Russian SuperGLUE]] — набор задач (RTE, WSC, CB и др.).
[[Вики/RuBERT-score|RuBERT-score]] — метрика на основе [[Вики/BERT|BERT]] для оценки генерации.
[[Вики/human-in-the-loop|Human evaluation]] — [[Вики/multiple annotators|краудсорсинг]] ([[Вики/Evaluation|оценка]] адекватности, грамматики).
[[Вики/LLM-as-a-judge|LLM-as-a-judge]] — использование сильной модели ([[Вики/YandexGPT|YandexGPT]]) для оценки ответов.

Важно тестировать на своих данных: например, взять 100–200 реальных запросов из [[Вики/production|production]] и сравнить ответы нескольких моделей.

10. Примеры использования

Чат-бот поддержки: [[Вики/YandexGPT|YandexGPT]] (быстрое внедрение) или [[Вики/Llama|Llama-3-8B]] [[Вики/fine-tuning|fine-tuned]] (контроль данных).
[[Вики/summarization|Суммаризация]] документов: Saiga-3-8B (хорошо справляется с длинными текстами).
Классификация обращений: [[Вики/T-lite-instruct|T-lite-instruct]] (лёгкая, быстрая, дешёвая).
[[Вики/generation|Генерация]] контента: [[Вики/YandexGPT|YandexGPT]] (высокое качество русского).

11. Пет-проект для закрепления

[[Вики/Task|Задача]] Создать Telegram-бота, который отвечает на вопросы по документации компании на русском языке.

Инструменты

[[Вики/Llama-3-8B|Llama-3-8B]] ([[Вики/fine-tuning|fine-tuned]] на русских инструкциях) или [[Вики/YandexGPT|YandexGPT]] [[Вики/API|API]].
[[Вики/LangChain|LangChain]] для [[Вики/RAG|RAG]] ([[Вики/RAG|Retrieval-Augmented Generation]]).
[[Вики/Qdrant|ChromaDB]] или [[Вики/Faiss|FAISS]] для векторного поиска.
[[Вики/telegram bot|python-telegram-bot]] для интерфейса.

Шаги:

Собрать [[Вики/RAG Corpus|корпус документов]] ([[Вики/PDF|PDF]], [[Вики/Markdown|Markdown]]).
Разбить на чанки (500–1000 токенов).
Создать [[Вики/embedding|эмбеддинги]] (например, [[Вики/intfloatmultilingual-e5|intfloat/multilingual-e5-large]]).
Реализовать [[Вики/retrieval|retrieval]]: по запросу пользователя ищем топ-3 чанка.
Подать чанки в [[Вики/prompt|промпт]] [[Вики/GPT-4o|LLM]] и получить ответ.
Сравнить качество ответов [[Вики/Llama|Llama-3-8B]] ([[Вики/self-hosted|self-hosted]]) и [[Вики/YandexGPT|YandexGPT]] ([[Вики/API|API]]) на одних и тех же запросах.

Ожидаемый результат Работающий бот, метрики (hit rate, faithfulness), вывод о том, какая модель лучше подходит для данного сценария.

12. Связь с другими вопросами

Вопрос	Тема
[[77. Как вы оптимизируете embedding генерацию для большого количества документов\|77]]	Как вы выбираете LLM для задачи?
[[79. Как вы обновляете embedding модель без полной переиндексации\|79]]	Как вы fine-tune LLM?
[[80. Какие 3 книгикурса вы рекомендуете по production LLM\|80]]	Как вы деплоите LLM в production?
[[81. Как бы вы спроектировали систему для 1000 одновременных пользователей чат-бота с RAG\|81]]	Как вы оцениваете качество LLM?
[[82. Как бы вы спроектировали систему для реального времени (real-time) обработки документов\|82]]	Какие меры безопасности вы применяете при использовании LLM?

13. Навигация

Предыдущий: [[77. Как вы оптимизируете embedding генерацию для большого количества документов|77]]
Следующий: [[79. Как вы обновляете embedding модель без полной переиндексации|79]]
Индекс: [[00. Индекс разборов]]

Предыдущий: [[77. Как вы оптимизируете embedding генерацию для большого количества документов|77]]
Следующий: [[79. Как вы обновляете embedding модель без полной переиндексации|79]]
Индекс: [[00. Индекс разборов]]

---
теги: [разбор, LLM, русский язык]
вопрос: 78
---

## Краткий тезис

Выбор [[Вики/LLM|LLM]] для русского языка определяется балансом между качеством генерации, стоимостью инференса, контролем над данными и [[Вики/TTFT|latency]]. Среди открытых моделей [[Вики/Llama-3-8B|Llama-3-8B]] после **[[Вики/SFT|fine-tuning]]** на русских данных показывает лучшее качество для [[Вики/self-hosted|self-hosted]] сценариев. Для быстрого старта без инфраструктурных затрат подходят закрытые [[Вики/API|API]]: [[Вики/YandexGPT|YandexGPT]] (отличный русский, платный) и [[Вики/T-lite-instruct|T-lite-instruct]] от Tinkoff (бесплатный, лёгкий). [[Вики/Saiga|Saiga]] от Ильи Гусева — популярная open-source альтернатива, основанная на [[Вики/Transformer|LLaMA]].

---

## 1. Введение: почему выбор LLM для русского языка — нетривиальная задача

Русский язык отличается от английского морфологией, синтаксисом и объёмом доступных обучающих данных. Большинство фундаментальных моделей ([[Вики/LLM|GPT-4]], [[Вики/Claude API|Claude]], [[Вики/Gemini|Gemini]]) обучаются преимущественно на английском, поэтому их качество на русском может быть ниже. Для production-систем критичны:

- Качество генерации (адекватность, [[Вики/grammar|грамматика]], стиль).
- Стоимость инференса (токены, time|время GPU).
- Контроль данных (юридические требования, конфиденциальность).
- [[Вики/TTFT|Latency]] ([[Вики/Latency|время ответа]] для [[Вики/runtime|real-time]] приложений).
- Возможность [[Вики/SFT|fine-tuning]] ([[Вики/Evolution|адаптация]] под [[Вики/source|домен]]).

На рынке представлены как открытые модели (можно развернуть локально), так и закрытые [[Вики/API|API]]. Рассмотрим основные варианты.

---

## 2. Критерии выбора LLM для русского языка

Перед выбором модели необходимо определить:

- [[Вики/бюджет|Бюджет]] на [[Вики/inference|инференс]] (есть ли [[Вики/GPU|GPU]], готовы ли платить за [[Вики/API|API]]).
- Требования к [[Вики/TTFT|latency]] (допустимо ли 2–5 секунд или нужно <500 мс).
- Необходимость [[Вики/SFT|fine-tuning]] (нужна ли [[Вики/SFT|дообучение]] под специфическую задачу).
- Объём контекста (достаточно ли 4K–8K токенов или нужен 128K).
- Юридические [[Вики/constraints|ограничения]] (можно ли отправлять данные на внешние сервера).

Эти критерии помогут отсеять неподходящие варианты.

---

## 3. Открытые модели (self-hosted)

### 3.1 Llama-3-8B (multilingual)

Meta выпустила [[Вики/Transformer|Llama-3]] с улучшенной мультиязычной токенизацией. [[Вики/model|Модель]] 8B (8 миллиардов параметров) показывает лучшее качество на русском среди открытых моделей своего размера. После [[Вики/SFT|fine-tuning]] на русских инструкциях (например, на датасете [[Вики/RuTurboAlpaca|RuTurboAlpaca]]) она способна конкурировать с [[Вики/YandexGPT|YandexGPT]] по ряду задач.

Плюсы
- Высокое качество после дообучения.
- Открытый вес, можно развернуть локально.
- Активное сообщество, множество адаптаций.

Минусы
- Требует [[Вики/GPU|GPU]] с 16+ ГБ [[Вики/GPU memory|VRAM]] для инференса (например, [[Вики/A10G|A10G]], L4).
- [[Вики/baseline|Базовая модель]] не оптимизирована под русский — обязателен [[Вики/SFT|fine-tuning]].

### 3.2 Saiga (Илья Гусев)

Серия моделей [[Вики/Saiga|Saiga]] (на базе [[Вики/Llama|LLaMA-2]], [[Вики/Llama|LLaMA-3]], [[Вики/Mistral|Mistral]]) дообучена на русских инструкциях и диалогах. Доступна в размерах 7B, 13B, 70B. Saiga-3-8B — одна из лучших open-source моделей для русского языка.

Плюсы
- Готова к использованию без дополнительного [[Вики/fine-tuning|fine-tuning]].
- Хорошо справляется с диалогами, суммаризацией, генерацией текста.
- Бесплатна, [[Вики/Apache 2.0|Apache 2.0]].

Минусы
- Качество может уступать [[Вики/Llama|Llama-3-8B]] после [[Вики/fine-tuning|fine-tuning]] на специфическом домене.
- Меньше сообщества, чем у оригинальной [[Вики/Llama|LLaMA]].

### 3.3 Другие открытые модели

- [[Вики/Qwen 2.5 1.5B|Qwen-7B/14B]] (Alibaba) — мультиязычная, неплохой русский, но уступает [[Вики/Llama|Llama-3]].
- [[Вики/ruGPT-3.5|ruGPT-3.5]] (Sber) — закрытая, но есть open-source версии (например, ruGPT-3.5-13B). Качество ниже современных моделей.
- [[Вики/Mistral-7B|Mistral-7B]] — отличная база, но требует [[Вики/fine-tuning|fine-tuning]] на русском.

---

## 4. Сравнение YandexGPT vs GigaChat (2026)

| Характеристика | YandexGPT | GigaChat |
|---------------|-----------|----------|
| Модели | Lite, Pro | Lite, Pro |
| Контекст | до 32k токенов | до 32k токенов |
| API | REST, gRPC | REST |
| Fine-tuning | через платформу | нет публичного |
| Цена | ~₽5-50/1K токенов | ~₽4-40/1K токенов |

**Когда что выбирать:**
- YandexGPT: лучше интеграция с экосистемой Яндекса, поисковая выдача
- GigaChat: Code generation (GigaCode), безопасность (Сбер)

Заметки:
Дополнить обзор LLM для русского языка актуальными данными по YandexGPT и GigaChat

---

## 5. Закрытые модели (API)

### 5.1 YandexGPT

Флагманская [[Вики/model|модель]] Яндекса, обученная на огромном корпусе русского текста. Доступна через Yandex [[Вики/Облако|Cloud]] ([[Вики/API|API]]) и в продуктах (Алиса, [[Вики/YandexGPT|YandexGPT]] для бизнеса).

Плюсы
- Лучшее качество русского языка среди всех моделей (включая грамматику, стиль, факты).
- Не требует инфраструктуры — платите за [[Вики/cost|токены]].
- Поддерживает [[Вики/fine-tuning|fine-tuning]] через [[Вики/API|API]] ([[Вики/YandexGPT|YandexGPT]] Lite/Pro).

Минусы
- Закрытая, данные уходят на сервера Яндекса.
- [[Вики/cost|Стоимость]]: ~0.5–2 рубля за 1000 токенов (зависит от тарифа).
- [[Вики/Latency|Latency]] выше, чем у локальной модели (сетевая [[Вики/Latency|задержка]]).

### 5.2 T-lite-instruct (Tinkoff)

Лёгкая [[Вики/model|модель]] от Tinkoff (1.3B параметров), доступная бесплатно через [[Вики/API|API]]. Основана на архитектуре [[Вики/Transformer|GPT-2]] и дообучена на русских инструкциях.

Плюсы
- Бесплатный [[Вики/API|API]] (с ограничениями по [[Вики/throughput|RPS]]).
- Очень быстрая (маленькая [[Вики/model|модель]]).
- Подходит для простых задач: классификация, [[Вики/retrieval|извлечение]], короткие ответы.

Минусы
- Качество генерации ограничено размером.
- Не подходит для сложных рассуждений или длинных текстов.
- Нет [[Вики/fine-tuning|fine-tuning]] через [[Вики/API|API]].

### 5.3 GigaChat (Sber)

[[Вики/model|Модель]] от Сбера, доступна через [[Вики/API|API]]. Поддерживает русский, но качество уступает [[Вики/YandexGPT|YandexGPT]]. Есть бесплатный тариф с ограничениями.

---

## 6. Сравнительная таблица

| Модель | Тип | Качество русского | Стоимость | Fine-tuning | Latency | Размер |
|--------|-----|------------------|-----------|-------------|---------|--------|
| **Llama-3-8B** (fine-tuned) | Открытая | ★★★★★ | Бесплатно (GPU) | Да | Низкая (локально) | 8B |
| [[Вики/YandexGPT|YandexGPT]] | Закрытая API | ★★★★★ | Платно (0.5–2 руб/1K токенов) | Да (через API) | Средняя (сеть) | ~? |
| **Saiga-3-8B** | Открытая | ★★★★☆ | Бесплатно (GPU) | Да | Низкая | 8B |
| [[Вики/T-lite-instruct|T-lite-instruct]] | Закрытая API | ★★★☆☆ | Бесплатно | Нет | Очень низкая | 1.3B |
| [[Вики/GigaChat|GigaChat]] | Закрытая API | ★★★★☆ | Платно/бесплатно (лимит) | Нет | Средняя | ~? |

---

## 7. Fine-tuning под русский язык

Для открытых моделей [[Вики/fine-tuning|fine-tuning]] — ключевой этап. Используются техники [[Вики/LoRA|LoRA]] ([[Вики/LoRA|Low-Rank Adaptation]]) или [[Вики/QLoRA|QLoRA]], позволяющие дообучать [[Вики/model|модель]] на одном [[Вики/GPU|GPU]] с 16–24 ГБ [[Вики/GPU memory|VRAM]].

**Пример кода ([[Вики/Hugging Face|Hugging Face]] + [[Вики/Parameter-Efficient Fine-Tuning|PEFT]]):**

```[python](/wiki/Python)
from [transformers](/wiki/transformers) import [AutoModelForCausalLM](/wiki/AutoModelForCausalLM), [AutoTokenizer](/wiki/AutoTokenizer)
from peft import [LoraConfig](/wiki/LoraConfig), get_peft_model, [TaskType](/wiki/TaskType)
from [datasets](/wiki/Datasets) import load_dataset

[model_name](/wiki/model_name) = "meta-llama/Meta-Llama-3-8B"
[tokenizer](/wiki/tokenizer) = [AutoTokenizer](/wiki/AutoTokenizer).from_pretrained([model_name](/wiki/model_name))
[model](/wiki/model) = [AutoModelForCausalLM](/wiki/AutoModelForCausalLM).from_pretrained([model_name](/wiki/model_name), load_in_4bit=True, [device_map](/wiki/device_map)="auto")

lora_config = [LoraConfig](/wiki/LoraConfig)(
    r=16,
    [lora_alpha](/wiki/lora_alpha)=32,
    [target_modules](/wiki/target_modules)=["[q_proj](/wiki/q_proj)", "[v_proj](/wiki/v_proj)"],
    lora_dropout=0.05,
    [bias](/wiki/bias)="none",
    task_type=[TaskType](/wiki/TaskType).CAUSAL_LM
)
[model](/wiki/model) = get_peft_model([model](/wiki/model), lora_config)

[dataset](/wiki/dataset) = load_dataset("[json](/wiki/JSON)", data_files="russian_instructions.[jsonl](/wiki/JSONL)")
# ... обучение