OpenAI vs Anthropic vs Groq vs Self-hosted — что выбираете? | AI/ML Собеседования

Q: Краткий тезис

Выбор провайдера [[Вики/LLM\|LLM]] — это [[Вики/trade-off\|компромисс]] между качеством, скоростью, стоимостью и контролем над данными. Для [[Вики/POC\|POC]] и стартапов удобнее всего [[Вики/OpenAI API\|OpenAI]] ([[Вики/trade-off\|баланс]] качества и инструментов). Для продакшена с жёсткими требованиями к задержке — [[Вики/Groq\|Groq]] (сверхнизкий [[Вики/TTFT\|latency]]). Для сценариев с конфиденциальными данными и [[Вики/Long Context\|long-context]] — [[Вики/LLM endpoint\|Anthropic]] ([[Вики/S

Q: 1. Термины: провайдеры LLM и их инфраструктура

Термин [[Вики/TTFT\|Latency]] ([[Вики/TTFT\|задержка]]) — время от отправки запроса до получения первого токена ([[Вики/TTFT\|TTFT]]). [[Вики/tokens per second\|Throughput]] ([[Вики/throughput\|пропускная способность]]) — количество токенов, генерируемых в секунду. ---

Q: 2. Ключевые критерии сравнения

Q: 2.1 Дополнительные провайдеры: OpenRouter, GigaChat, YandexGPT

Q: 3. Когда выбирать OpenAI

Типичный [[Вики/Scenario\|сценарий]] быстрое прототипирование ([[Вики/POC\|POC]]), стартап без собственных [[Вики/GPU\|GPU]], продукт, где качество ответа критично, и можно передать данные третьей стороне. Плюсы - Экосистема инструментов [[Вики/Assistants API\|Assistants API]], [[Вики/OpenAI Functions\|function calling]] (гарантированное распознавание функций), structured outputs ([[Вики/JSON mode\|JSON mode]]).

Q: 4. Когда выбирать Anthropic

Типичный [[Вики/Scenario\|сценарий]] задачи, требующие безопасности и фактологической точности (юридические, медицинские, [[Вики/Compliance\|compliance]]). Применение 200K контекста (например, анализ целых книг или больших логов). Плюсы - [[Вики/Constitutional AI\|Constitutional AI]] ответы фильтруются на вредоносность, что снижает риск репутационных потерь.

Q: 5. Когда выбирать Groq

Типичный [[Вики/Scenario\|сценарий]] [[Вики/runtime\|real-time]] чат-боты, голосовые ассистенты, [[Вики/code generation\|генерация кода]] в IDE, где каждый миллисекунды на счету. [[Вики/Groq\|Groq]] даёт самый низкий [[Вики/Latency\|latency]] (10–30 мс [[Вики/TTFT\|TTFT]]). Плюсы - Сверхвысокая скорость 200–400 [[Вики/tokens per second\|токенов/сек]] для [[Вики/Mixtral\|Mixtral 8x7B]], ~100 [[Вики/tokens per second\|токенов/сек]] для [[Вики/GPT-4o\|Llama 3 70B]].

Краткий тезис

Выбор провайдера LLM — это компромисс между качеством, скоростью, стоимостью и контролем над данными. Для POC и стартапов удобнее всего OpenAI (баланс качества и инструментов). Для продакшена с жёсткими требованиями к задержке — Groq (сверхнизкий latency). Для сценариев с конфиденциальными данными и long-context — Anthropic (безопасность, 200k контекст). Для полного контроля и экономии на больших объёмах — Self-hosted (например, Llama-3 через vLLM). Для русскоязычных задач стоит учитывать GigaChat (Сбер) и YandexGPT (Яндекс), а для гибкой маршрутизации — OpenRouter. Решение принимается на основе конкретных бизнес-требований и доступных ресурсов.

1. Термины: провайдеры LLM и их инфраструктура

OpenAI — коммерческий API на базе моделей GPT-4o, o1, GPT-4o mini и др. Предоставляет function calling, JSON mode, assistants API и низкую задержку (200–500 мс для GPT-4o mini). В 2026 году GPT-4o стал стандартом де-факто, а o1 используется для сложных рассуждений (chain-of-thought). Цены: GPT-4o mini — $0.15/1M input, $0.6/1M output; GPT-4o — $2.5/1M input, $10/1M output; o1 — $15/1M input, $60/1M output.

Anthropic — API для семейства Claude (Haiku, Sonnet, Opus). Ключевые особенности: безопасность (constitutional AI), контекст до 200K токенов, высокая faithfulness.

Groq — инференс-движок на базе ASIC (LPU), который выводит модели с рекордной скоростью 50–100 токенов/сек (для Mixtral 8x7B, Llama 3 70B, Gemma). Не обучает свои модели — предоставляет инференс сторонних open-weight моделей.

OpenRouter — агрегатор API-провайдеров, дающий доступ к десяткам моделей (GPT-4o, Claude, Llama, Mistral и др.) через единый интерфейс. Позволяет выбирать наилучший вариант по цене/скорости/качеству, поддерживает fallback и балансировку. Цены на OpenRouter (на 2026): GPT-4o — $2.5/1M input + 10% комиссии; Llama-3 70B от Groq — $0.59/1M input; Mixtral 8x7B — $0.4/1M input. Удобен для мульти-провайдерной маршрутизации без собственного роутера.

GigaChat — российский API от Сбера на базе собственных моделей (GigaChat Lite, Pro, Max). Отличается высокой точностью на русском языке, поддержкой диалогового контекста до 8K токенов, встроенным безопасным режимом. Цены (2026): GigaChat Lite — 0.5 руб./1M токенов (≈$0.005), Pro — 5 руб./1M токенов (≈$0.05), Max — 10 руб./1M токенов (≈$0.1). Поддерживает function calling и JSON mode.

YandexGPT — API от Яндекса (YandexGPT Lite, Pro). Оптимизирован для русского языка, часто используется в интеграции с Yandex Cloud и поисковыми сервисами. Цены (2026): YandexGPT Lite — 1 руб./1M токенов (≈$0.01), Pro — 8 руб./1M токенов (≈$0.08). Контекст до 4K токенов, поддержка function calling.

Self-hosted — любое локальное развёртывание моделей (через vLLM, TGI, Ollama, llama.cpp) на собственных GPU или облачных инстансах. Даёт полный контроль над данными, latency и выбором модели, но требует DevOps-инфраструктуры и GPU-ресурсов.

Термин Latency (задержка) — время от отправки запроса до получения первого токена (TTFT). Throughput (пропускная способность) — количество токенов, генерируемых в секунду.

2. Ключевые критерии сравнения

Критерий	OpenAI	Anthropic	Groq	Self-hosted
Качество (MMLU, HumanEval)	⭐⭐⭐⭐⭐ (GPT-4o, o1)	⭐⭐⭐⭐⭐ (Claude 3 Opus)	⭐⭐⭐ (зависит от модели)	⭐⭐–⭐⭐⭐⭐ (зависит от модели)
Скорость (токенов/сек)	~50-100 (GPT-4o mini)	~20-50 (Claude Haiku)	200-400 (Mixtral)	~50-300 (зависит от GPU)
Стоимость за 1M токенов	$0.15–$60 (в зависимости от модели)	$0.25–$15	$0.5–$1 (через API)	~$0.1–$0.5 (на своих GPU)
Контроль данных	Нет (данные проходят через API)	Нет (данные проходят через API)	Нет (данные проходят через API)	Полный (локально)
Макс. контекст	128K (GPT-4-turbo) / 200K (o1)	200K (Claude 3)	32K–128K (зависит от модели)	Ограничение модели (от 8K до 128K)
Function Calling	✅ (отлично)	✅ (хорошо)	✅ (базовое, через промпт)	❌ (только через код)
Structured Output	✅ (JSON mode)	✅ (constrained decoding)	❌	❌ (можно добавить через код)
Русскоязычная поддержка	Хорошая (но возможны англоцентричные bias)	Низкая (преимущественно английский)	Средняя (через open-модели)	Зависит от модели (Llama-3 / Qwen)
DevOps overhead	Низкий	Низкий	Низкий	Высокий (GPU, кластеризация)

2.1 Дополнительные провайдеры: OpenRouter, GigaChat, YandexGPT

Критерий	OpenRouter	GigaChat	YandexGPT
Качество (русский язык)	⭐⭐⭐ (зависит от выбранной модели)	⭐⭐⭐⭐⭐ (Lite/Pro/Max)	⭐⭐⭐⭐ (Pro)
Скорость (токенов/сек)	~30-200 (в зависимости от бэкенда)	~30-80 (зависит от нагрузки)	~20-60
Стоимость за 1M токенов	$0.4–$10 (модели + комиссия)	~$0.005–$0.1	~$0.01–$0.08
Контроль данных	Нет (зависит от бэкенда)	Данные остаются в РФ (соответствие 152-ФЗ)	Данные остаются в РФ (Яндекс.Облако)
Макс. контекст	до 128K (через поддерживаемую модель)	8K (Pro/Max)	4K
Function Calling	✅ (через выбранную модель)	✅	✅
Structured Output	✅ (через модель)	✅ (JSON mode в Pro/Max)	❌ (только через код)
Русскоязычная поддержка	Средняя – отличная (зависит от модели)	⭐⭐⭐⭐⭐	⭐⭐⭐⭐

Когда выбирать OpenRouter:

Нужна гибкость — доступ к десяткам моделей через единый API.
Хотите автоматически выбирать лучший по цене/скорости бэкенд (например, Groq для скорости, Together для качества).
Плюсы: простой fallback, кэширование, поддержка мульти-модельных роутеров.
Минусы: небольшая комиссия, зависимость от внешнего сервиса, неполный контроль данных.

Когда выбирать GigaChat / YandexGPT:

Проект ориентирован на русскоязычную аудиторию, требуется высокая точность понимания русского языка и культурного контекста.
Необходимо соблюдение российского законодательства (152-ФЗ) — данные не покидают РФ.
Интеграция с экосистемой Сбера или Яндекса (Yandex Cloud, Yandex Search, YandexGPT в ассистентах).
Минусы: меньший контекст (4-8K), ограниченный набор инструментов (function calling только у GigaChat Pro/Max), зависимость от локальной инфраструктуры провайдера.

3. Когда выбирать OpenAI

Типичный сценарий быстрое прототипирование (POC), стартап без собственных GPU, продукт, где качество ответа критично, и можно передать данные третьей стороне.

Плюсы

Экосистема инструментов Assistants API, function calling (гарантированное распознавание функций), structured outputs (JSON mode).
Баланс качества и скорости GPT-4o mini даёт почти качество GPT-4 за $0.15/1M input токенов (цены 2026).
Low latency для малых объёмов стабильно 200–500 мс TTFT.
Модель o1 доступна для задач, требующих длинных рассуждений (математика, code review) — цена $15/1M input.

Минусы

Высокая стоимость при масштабировании для 1M запросов/день может составить тысячи долларов (особенно o1).
Нет контроля данных данные уходят на сервера OpenAI, что запрещено в некоторых регуляциях (GDPR, HIPAA, 152-ФЗ).
Model updates API может измениться, модель — устареть без предупреждения.

Когда не подходит большие объёмы (>1M запросов/день), конфиденциальные данные, жёсткие требования к задержке <100 мс, русскоязычная аудитория с особыми требованиями к качеству (лучше GigaChat/YandexGPT).

4. Когда выбирать Anthropic

Типичный сценарий задачи, требующие безопасности и фактологической точности (юридические, медицинские, compliance). Применение 200K контекста (например, анализ целых книг или больших логов).

Плюсы

Constitutional AI ответы фильтруются на вредоносность, что снижает риск репутационных потерь.
Long context Claude 3 Sonnet/Opus легко работает с 150K+ токенов без падения качества на середине.
High answer relevance меньше галлюцинаций по сравнению с GPT-4 в сложных рассуждениях.

Минусы

Дороже OpenAI для тех же задач: Claude Opus ~$15/1M output токенов (против $10 у GPT-4o).
Меньше инструментов function calling менее зрелый (реже распознаёт нужные функции).
Slower TTFT может достигать 1–3 с для Opus.
Плохая поддержка русского языка — ответы могут быть англоцентричными, грамматические ошибки.

Когда не подходит high-throughput (низкий throughput), нужна дешёвая генерация для неважных ответов, проект для русскоязычной аудитории.

5. Когда выбирать Groq

Типичный сценарий real-time чат-боты, голосовые ассистенты, генерация кода в IDE, где каждый миллисекунды на счету. Groq даёт самый низкий latency (10–30 мс TTFT).

Плюсы

Сверхвысокая скорость 200–400 токенов/сек для Mixtral 8x7B, ~100 токенов/сек для Llama 3 70B.
Надёжность LPU ASIC обеспечивает детерминированное время генерации.
Дешевле OpenAI ~$0.6/1M токенов для популярных моделей.

Минусы

Ограниченный набор моделей только открытые модели (Llama, Mixtral, Gemma). Нет собственных закрытых.
Качество уступает GPT-4o/Claude Opus для сложных задач может не хватить.
Нет function calling/JSON mode в API: нужно парсить ответы через промпт.
Контроль данных отсутствует Groq — тоже внешний API.
Для русскоязычных задач open-модели (Llama-3) работают хуже, чем GigaChat/YandexGPT.

Когда не подходит нужна самая высокая точность (MMLU >90), работа с конфиденциальными данными, русскоязычные смысловые нюансы.

6. Когда выбирать Self-hosted

Типичный сценарий enterprise с жёсткими требованиями к приватности данных (банки, госсектор, медицина). Или стартап, который хочет снизить затраты при масштабе >1M запросов/день.

Плюсы

Полный контроль данные не покидают вашу инфраструктуру.
Экономия на большом объёме cost per token на собственных GPU (например, 4x A100) может быть в 5–10 раз ниже, чем API при высокой загрузке.
Гибкость можно выбрать любую open-weight модель (Llama-3, Mistral, Gemma, Qwen), тонко настраивать, обновлять без external dependency. Можно развернуть русскоязычные модели (Saiga, YandexGPT open-source аналоги) для лучшего качества на русском.

Минусы

Высокий DevOps overhead настройка GPU-кластера, балансировка, мониторинг, обновление драйверов, управление памятью.
Качество уступает top API лучшие open-модели (Llama-3 70B) приближаются к GPT-4, но всё ещё уступают в сложных рассуждениях.
GPU costs upfront нужно приобретать или арендовать GPU (A100, H100), что требует $10K–$200K.
Lower throughput на малом масштабе если нагрузка <100 запросов/мин, дешевле использовать API.

Когда не подходит маленький стартап без DevOps, нет бюджета на GPU, не хватает квалификации для обслуживания.

7. Гибридный подход (Multi-provider routing)

Часто оптимальное решение — комбинировать провайдеров в зависимости от типа запроса:

Тип запроса	Провайдер	Обоснование
Простой FAQ	Groq (Llama-3 8B)	Дешево, быстро, качество достаточно
Генерация кода	Groq (Mixtral 8x7B) или OpenAI GPT-4o mini	Скорость + приемлемое качество
Сложный анализ документов	Anthropic Claude 3 Sonnet	long context, точность
Конфиденциальные данные	Self-hosted Llama-3 70B	Без утечки данных
POC / prototyping	OpenAI GPT-4o	Лучшая экосистема для быстрой разработки
Русскоязычные разговорные сценарии	GigaChat Pro / YandexGPT Pro	Высокое качество на русском, соответствие 152-ФЗ
Маршрутизация с fallback	OpenRouter	Единая точка входа, автоматический выбор провайдера

Для автоматизации маршрутизации можно использовать LLM router (например, OpenAI Route, OpenRouter, или собственный классификатор на основе эмбеддингов).

Пример кода (упрощённый router с поддержкой русскоязычных провайдеров):

import openai, anthropic, groq, gigachat, yandexgpt

def route_query(query: str, is_confidential: bool, lang: str = "ru") -> str:
    if is_confidential:
        # Self-hosted endpoint (vLLM)
        return query_self_hosted(query)
    if lang == "ru" and len(query) < 8000:
        # GigaChat for Russian non-confidential
        return gigachat_client.chat(query)
    if lang == "ru" and "search" in query.lower():
        # YandexGPT for Russian search context
        return yandexgpt_client.chat(query)
    if len(query) > 8000:
        # Anthropic for long context
        return anthropic_client.messages.create(...)
    if "code" in query.lower():
        # Groq for speed
        return groq_client.chat.completions.create(...)
    else:
        # OpenAI default
        return openai.chat.completions.create(...)

8. Trade-offs и принятие решений

Для выбора провайдера можно использовать взвешенную матрицу решений. Например, для финансового чат-бота с русскоязычными пользователями:

Критерий	Вес	OpenAI	Anthropic	Groq	Self-hosted	GigaChat	YandexGPT
Качество на русском	0.4	7	4	5	7 (с дообучением)	10	9
Контроль данных	0.3	0	0	0	10	8	8
Скорость	0.2	7	5	10	6	5	4
Стоимость (на 100K запросов)	0.1	4	3	8	9	9	8
Итог		4.5	2.9	4.3	8.1	8.7	8.2

GigaChat выигрывает за счёт высокого качества на русском и приемлемого контроля данных. Self-hosted — если нужен абсолютный контроль и есть бюджет на GPU.

Практический совет начинайте с OpenAI для быстрой валидации идеи. Для русскоязычного продукта сразу тестируйте GigaChat или YandexGPT. Как только становится ясно, что продукт будет масштабироваться, и появляются требования к приватности/стоимости — переходите на гибридную схему или self-hosted.

9. Пример принятия решения по шагам

Определите требования latency P50 < 200 мс? → Groq. Конфиденциальность? → Self-hosted. Русскоязычная аудитория? → GigaChat/YandexGPT.
Посчитайте объём если менее 100 тыс. запросов/день → API дешевле.
Протестируйте на реальных задачах запустите A/B тест качества между GPT-4o mini и GigaChat Pro на русских запросах.
Оцените TCO (Total Cost of Ownership): включите стоимость GPU, электричества, администрирования (DevOps salary). Для GigaChat/YandexGPT — стоимость API с учётом курса рубля.
Выберите стратегию единый провайдер или мульти-роутинг (включая OpenRouter).

10. Будущее и тренды

Groq активно расширяет список моделей, скоро может поддерживать GPT-4-уровень.
Self-hosted становится проще с появлением vLLM и TGI (автоматический batching, PagedAttention).
Multi-provider orchestration (например, OpenRouter, Portkey) растёт: можно быстро переключаться между провайдерами, включая региональных.
Fine-tuning открытых моделей (Llama-3, Mistral) может подтянуть качество до уровня топовых API на специфических доменах, включая русский язык (например, Saiga на базе Llama).
GigaChat и YandexGPT активно развиваются: увеличивают контекст (до 32K в дорожной карте), добавляют мультимодальность (GigaChat уже поддерживает изображения), снижают цены.
OpenRouter становится стандартом для стартапов, желающих избежать vendor lock-in: интеграция с одним API даёт доступ к 50+ моделям.

Пет-проект для закрепления

Задача Разработать microservice, который для заданного запроса выбирает провайдера на основе правил (включая русскоязычные) и возвращает ответ. Использовать Python, FastAPI, клиенты OpenAI, Anthropic, Groq, GigaChat, YandexGPT, vLLM.

Инструменты Python 3.11, FastAPI, openai, anthropic, groq-python, gigachat, yandexgpt, vllm (для self-hosted), Docker (для контейнеризации).

Шаги:

Реализовать функцию route_query(query, context):
- Если lang == "ru" → GigaChat Pro (дефолтный для русских запросов).
- Если "code" in query → Groq (Mixtral 8x7B).
- Если "confidential" в заголовке → local vLLM (Llama-3 8B).
- Если len(query) > 8000 → Anthropic (Claude 3 Haiku).
- Во всех остальных случаях → OpenAI (GPT-4o mini).
Написать эндпоинт /chat с POST-запросом.
Развернуть self-hosted модель через vLLM Docker (vllm serve meta-llama/Llama-3.2-8B-Instruct).
Настроить клиенты для GigaChat (через токен Сбера) и YandexGPT (через IAM-токен Yandex Cloud).
Запустить сервис локально и протестировать с русскоязычными запросами (например, "Какой прогноз погоды?" → GigaChat; "Напиши код парсера" → Groq).
Замерить latency и стоимость для каждого провайдера, вывести логи.

Ожидаемый результат Получить рабочее API, которое маршрутизирует запросы по правилам, и сравнить метрики (latency, cost per request) для разных провайдеров, включая российские.

Связь с другими вопросами

Вопрос	Тема
68	Как вы выбираете модель для своей задачи? (критерии выбора)
70	Какие метрики вы используете для оценки качества LLM? (качество ответов)
71	Как вы деплоите LLM в production? (deployment strategies)
73	Как вы оцениваете стоимость использования LLM (cost per token)? (TCO)
74	Как вы уменьшаете latency LLM-системы? (latency optimisation)
75	Как вы обеспечиваете безопасность данных при использовании LLM? (data privacy)

Краткий тезис

1. Термины: провайдеры LLM и их инфраструктура

2. Ключевые критерии сравнения

Критерий	OpenAI	Anthropic	Groq	Self-hosted
Качество (MMLU, HumanEval)	⭐⭐⭐⭐⭐ (GPT-4o, o1)	⭐⭐⭐⭐⭐ (Claude 3 Opus)	⭐⭐⭐ (зависит от модели)	⭐⭐–⭐⭐⭐⭐ (зависит от модели)
Скорость (токенов/сек)	~50-100 (GPT-4o mini)	~20-50 (Claude Haiku)	200-400 (Mixtral)	~50-300 (зависит от GPU)
Стоимость за 1M токенов	$0.15–$60 (в зависимости от модели)	$0.25–$15	$0.5–$1 (через API)	~$0.1–$0.5 (на своих GPU)
Контроль данных	Нет (данные проходят через API)	Нет (данные проходят через API)	Нет (данные проходят через API)	Полный (локально)
Макс. контекст	128K (GPT-4-turbo) / 200K (o1)	200K (Claude 3)	32K–128K (зависит от модели)	Ограничение модели (от 8K до 128K)
Function Calling	✅ (отлично)	✅ (хорошо)	✅ (базовое, через промпт)	❌ (только через код)
Structured Output	✅ (JSON mode)	✅ (constrained decoding)	❌	❌ (можно добавить через код)
Русскоязычная поддержка	Хорошая (но возможны англоцентричные bias)	Низкая (преимущественно английский)	Средняя (через open-модели)	Зависит от модели (Llama-3 / Qwen)
DevOps overhead	Низкий	Низкий	Низкий	Высокий (GPU, кластеризация)

2.1 Дополнительные провайдеры: OpenRouter, GigaChat, YandexGPT

Критерий	OpenRouter	GigaChat	YandexGPT
Качество (русский язык)	⭐⭐⭐ (зависит от выбранной модели)	⭐⭐⭐⭐⭐ (Lite/Pro/Max)	⭐⭐⭐⭐ (Pro)
Скорость (токенов/сек)	~30-200 (в зависимости от бэкенда)	~30-80 (зависит от нагрузки)	~20-60
Стоимость за 1M токенов	$0.4–$10 (модели + комиссия)	~$0.005–$0.1	~$0.01–$0.08
Контроль данных	Нет (зависит от бэкенда)	Данные остаются в РФ (соответствие 152-ФЗ)	Данные остаются в РФ (Яндекс.Облако)
Макс. контекст	до 128K (через поддерживаемую модель)	8K (Pro/Max)	4K
Function Calling	✅ (через выбранную модель)	✅	✅
Structured Output	✅ (через модель)	✅ (JSON mode в Pro/Max)	❌ (только через код)
Русскоязычная поддержка	Средняя – отличная (зависит от модели)	⭐⭐⭐⭐⭐	⭐⭐⭐⭐

Когда выбирать OpenRouter:

Нужна гибкость — доступ к десяткам моделей через единый API.
Хотите автоматически выбирать лучший по цене/скорости бэкенд (например, Groq для скорости, Together для качества).
Плюсы: простой fallback, кэширование, поддержка мульти-модельных роутеров.
Минусы: небольшая комиссия, зависимость от внешнего сервиса, неполный контроль данных.

Когда выбирать GigaChat / YandexGPT:

Проект ориентирован на русскоязычную аудиторию, требуется высокая точность понимания русского языка и культурного контекста.
Необходимо соблюдение российского законодательства (152-ФЗ) — данные не покидают РФ.
Интеграция с экосистемой Сбера или Яндекса (Yandex Cloud, Yandex Search, YandexGPT в ассистентах).
Минусы: меньший контекст (4-8K), ограниченный набор инструментов (function calling только у GigaChat Pro/Max), зависимость от локальной инфраструктуры провайдера.

3. Когда выбирать OpenAI

Плюсы

Экосистема инструментов Assistants API, function calling (гарантированное распознавание функций), structured outputs (JSON mode).
Баланс качества и скорости GPT-4o mini даёт почти качество GPT-4 за $0.15/1M input токенов (цены 2026).
Low latency для малых объёмов стабильно 200–500 мс TTFT.
Модель o1 доступна для задач, требующих длинных рассуждений (математика, code review) — цена $15/1M input.

Минусы

Высокая стоимость при масштабировании для 1M запросов/день может составить тысячи долларов (особенно o1).
Нет контроля данных данные уходят на сервера OpenAI, что запрещено в некоторых регуляциях (GDPR, HIPAA, 152-ФЗ).
Model updates API может измениться, модель — устареть без предупреждения.

4. Когда выбирать Anthropic

Плюсы

Constitutional AI ответы фильтруются на вредоносность, что снижает риск репутационных потерь.
Long context Claude 3 Sonnet/Opus легко работает с 150K+ токенов без падения качества на середине.
High answer relevance меньше галлюцинаций по сравнению с GPT-4 в сложных рассуждениях.

Минусы

Дороже OpenAI для тех же задач: Claude Opus ~$15/1M output токенов (против $10 у GPT-4o).
Меньше инструментов function calling менее зрелый (реже распознаёт нужные функции).
Slower TTFT может достигать 1–3 с для Opus.
Плохая поддержка русского языка — ответы могут быть англоцентричными, грамматические ошибки.

5. Когда выбирать Groq

Плюсы

Сверхвысокая скорость 200–400 токенов/сек для Mixtral 8x7B, ~100 токенов/сек для Llama 3 70B.
Надёжность LPU ASIC обеспечивает детерминированное время генерации.
Дешевле OpenAI ~$0.6/1M токенов для популярных моделей.

Минусы

Ограниченный набор моделей только открытые модели (Llama, Mixtral, Gemma). Нет собственных закрытых.
Качество уступает GPT-4o/Claude Opus для сложных задач может не хватить.
Нет function calling/JSON mode в API: нужно парсить ответы через промпт.
Контроль данных отсутствует Groq — тоже внешний API.
Для русскоязычных задач open-модели (Llama-3) работают хуже, чем GigaChat/YandexGPT.

6. Когда выбирать Self-hosted

Плюсы

Полный контроль данные не покидают вашу инфраструктуру.
Экономия на большом объёме cost per token на собственных GPU (например, 4x A100) может быть в 5–10 раз ниже, чем API при высокой загрузке.
Гибкость можно выбрать любую open-weight модель (Llama-3, Mistral, Gemma, Qwen), тонко настраивать, обновлять без external dependency. Можно развернуть русскоязычные модели (Saiga, YandexGPT open-source аналоги) для лучшего качества на русском.

Минусы

Высокий DevOps overhead настройка GPU-кластера, балансировка, мониторинг, обновление драйверов, управление памятью.
Качество уступает top API лучшие open-модели (Llama-3 70B) приближаются к GPT-4, но всё ещё уступают в сложных рассуждениях.
GPU costs upfront нужно приобретать или арендовать GPU (A100, H100), что требует $10K–$200K.
Lower throughput на малом масштабе если нагрузка <100 запросов/мин, дешевле использовать API.

Когда не подходит маленький стартап без DevOps, нет бюджета на GPU, не хватает квалификации для обслуживания.

7. Гибридный подход (Multi-provider routing)

Часто оптимальное решение — комбинировать провайдеров в зависимости от типа запроса:

Тип запроса	Провайдер	Обоснование
Простой FAQ	Groq (Llama-3 8B)	Дешево, быстро, качество достаточно
Генерация кода	Groq (Mixtral 8x7B) или OpenAI GPT-4o mini	Скорость + приемлемое качество
Сложный анализ документов	Anthropic Claude 3 Sonnet	long context, точность
Конфиденциальные данные	Self-hosted Llama-3 70B	Без утечки данных
POC / prototyping	OpenAI GPT-4o	Лучшая экосистема для быстрой разработки
Русскоязычные разговорные сценарии	GigaChat Pro / YandexGPT Pro	Высокое качество на русском, соответствие 152-ФЗ
Маршрутизация с fallback	OpenRouter	Единая точка входа, автоматический выбор провайдера

Пример кода (упрощённый router с поддержкой русскоязычных провайдеров):

import openai, anthropic, groq, gigachat, yandexgpt

def route_query(query: str, is_confidential: bool, lang: str = "ru") -> str:
    if is_confidential:
        # Self-hosted endpoint (vLLM)
        return query_self_hosted(query)
    if lang == "ru" and len(query) < 8000:
        # GigaChat for Russian non-confidential
        return gigachat_client.chat(query)
    if lang == "ru" and "search" in query.lower():
        # YandexGPT for Russian search context
        return yandexgpt_client.chat(query)
    if len(query) > 8000:
        # Anthropic for long context
        return anthropic_client.messages.create(...)
    if "code" in query.lower():
        # Groq for speed
        return groq_client.chat.completions.create(...)
    else:
        # OpenAI default
        return openai.chat.completions.create(...)

8. Trade-offs и принятие решений

Критерий	Вес	OpenAI	Anthropic	Groq	Self-hosted	GigaChat	YandexGPT
Качество на русском	0.4	7	4	5	7 (с дообучением)	10	9
Контроль данных	0.3	0	0	0	10	8	8
Скорость	0.2	7	5	10	6	5	4
Стоимость (на 100K запросов)	0.1	4	3	8	9	9	8
Итог		4.5	2.9	4.3	8.1	8.7	8.2

9. Пример принятия решения по шагам

Определите требования latency P50 < 200 мс? → Groq. Конфиденциальность? → Self-hosted. Русскоязычная аудитория? → GigaChat/YandexGPT.
Посчитайте объём если менее 100 тыс. запросов/день → API дешевле.
Протестируйте на реальных задачах запустите A/B тест качества между GPT-4o mini и GigaChat Pro на русских запросах.
Оцените TCO (Total Cost of Ownership): включите стоимость GPU, электричества, администрирования (DevOps salary). Для GigaChat/YandexGPT — стоимость API с учётом курса рубля.
Выберите стратегию единый провайдер или мульти-роутинг (включая OpenRouter).

10. Будущее и тренды

Groq активно расширяет список моделей, скоро может поддерживать GPT-4-уровень.
Self-hosted становится проще с появлением vLLM и TGI (автоматический batching, PagedAttention).
Multi-provider orchestration (например, OpenRouter, Portkey) растёт: можно быстро переключаться между провайдерами, включая региональных.
Fine-tuning открытых моделей (Llama-3, Mistral) может подтянуть качество до уровня топовых API на специфических доменах, включая русский язык (например, Saiga на базе Llama).
GigaChat и YandexGPT активно развиваются: увеличивают контекст (до 32K в дорожной карте), добавляют мультимодальность (GigaChat уже поддерживает изображения), снижают цены.
OpenRouter становится стандартом для стартапов, желающих избежать vendor lock-in: интеграция с одним API даёт доступ к 50+ моделям.

Пет-проект для закрепления

Инструменты Python 3.11, FastAPI, openai, anthropic, groq-python, gigachat, yandexgpt, vllm (для self-hosted), Docker (для контейнеризации).

Шаги:

Реализовать функцию route_query(query, context):
- Если lang == "ru" → GigaChat Pro (дефолтный для русских запросов).
- Если "code" in query → Groq (Mixtral 8x7B).
- Если "confidential" в заголовке → local vLLM (Llama-3 8B).
- Если len(query) > 8000 → Anthropic (Claude 3 Haiku).
- Во всех остальных случаях → OpenAI (GPT-4o mini).
Написать эндпоинт /chat с POST-запросом.
Развернуть self-hosted модель через vLLM Docker (vllm serve meta-llama/Llama-3.2-8B-Instruct).
Настроить клиенты для GigaChat (через токен Сбера) и YandexGPT (через IAM-токен Yandex Cloud).
Запустить сервис локально и протестировать с русскоязычными запросами (например, "Какой прогноз погоды?" → GigaChat; "Напиши код парсера" → Groq).
Замерить latency и стоимость для каждого провайдера, вывести логи.

Связь с другими вопросами

Вопрос	Тема
68	Как вы выбираете модель для своей задачи? (критерии выбора)
70	Какие метрики вы используете для оценки качества LLM? (качество ответов)
71	Как вы деплоите LLM в production? (deployment strategies)
73	Как вы оцениваете стоимость использования LLM (cost per token)? (TCO)
74	Как вы уменьшаете latency LLM-системы? (latency optimisation)
75	Как вы обеспечиваете безопасность данных при использовании LLM? (data privacy)

OpenAI vs Anthropic vs Groq vs Self-hosted — что выбираете?

Краткий тезис

1. Термины: провайдеры LLM и их инфраструктура

2. Ключевые критерии сравнения

2.1 Дополнительные провайдеры: OpenRouter, GigaChat, YandexGPT

3. Когда выбирать OpenAI

4. Когда выбирать Anthropic

5. Когда выбирать Groq

6. Когда выбирать Self-hosted

7. Гибридный подход (Multi-provider routing)

8. Trade-offs и принятие решений

9. Пример принятия решения по шагам

10. Будущее и тренды

Пет-проект для закрепления

Связь с другими вопросами

Навигация

OpenAI vs Anthropic vs Groq vs Self-hosted — что выбираете?

Краткий тезис

1. Термины: провайдеры LLM и их инфраструктура

2. Ключевые критерии сравнения

2.1 Дополнительные провайдеры: OpenRouter, GigaChat, YandexGPT

3. Когда выбирать OpenAI

4. Когда выбирать Anthropic

5. Когда выбирать Groq

6. Когда выбирать Self-hosted

7. Гибридный подход (Multi-provider routing)

8. Trade-offs и принятие решений

9. Пример принятия решения по шагам

10. Будущее и тренды

Пет-проект для закрепления

Связь с другими вопросами

Навигация