- [[Вики/Long Context\|Long context]] — [[Вики/способность модели\|способность модели]] обрабатывать входную [[Вики/sequence\|последовательность]] длиной более 100k токенов (например, 128k, 1M, 2M). Для [[Вики/гибридный поиск\|RAG]] это означает, что можно поместить в [[Вики/промпт агента\|промпт]] множество документов без необходимости точного [[Вики/retrieval\|retrieval]].

- Набор real-world задач (юридические документы, научные статьи, [[Вики/logs\|логи]]) с длинными контекстами. - [[Вики/Evaluation\|Оценка]] **ответа [[Вики/GPT-4o\|LLM]] на вопрос** (не просто [[Вики/accuracy\|recall]] факта).

Как вы делаете model selection для long context (какая модель лучше держит 100k+)?

Q: 2. Почему long context важен для Agentic RAG?

В архитектуре [[Вики/Agentic RAG\|Agentic RAG]] [[Вики/agent\|агент]] может: - анализировать множество документов за один проход; - вести многошаговые рассуждения с сохранением истории; - обрабатывать большие результаты из инструментов ([[Вики/API\|API]], базы данных). Если [[Вики/model\|модель]] не держит [[Вики/Long Context\|длинный контекст]], [[Вики/agent\|агент]] теряет [[Вики/coherence\|связность]], забывает важные детали и выдаёт неверные результаты. Поэтому [[Вики/model selection\|выбор

Q: 3. Ключевые модели для long context (сравнительная таблица)

| Модель | Макс. контекст | Тип | Recall (NIAH) | Стоимость ($/1M токенов input) | Latency (средняя) | Open-source | Комментарий | |--------|---------------|-----|---------------|---------------------------------|-------------------|-------------|-------------| | **Claude 3.5 Sonnet** | 2M | Проприетарная | ~98% (до 200k), ~90% (2M) | $3.00 (вход) / $15.00 (выход) | Средняя (1-3 с) | Нет | Лучший recall, дорогой, медленный. |

Q: 4.1 Needle in a Haystack (NIAH)

- Что измеряет: способность найти и использовать информацию из произвольной позиции. - Процедура: создаётся «сено» — длинный текст (например, повторяющиеся предложения). В случайную позицию вставляется «иголка» (уникальный факт). Модели задаётся вопрос по иголке. [[Вики/Recall\|Recall]] = [[Вики/stake\|доля]] правильных ответов при разных длинах контекста и позициях иголки.

Q: 4.2 RULER (Extended Long-context Benchmark)

- Включает до 128k токенов, тестирует [[Вики/Multi-needle\|multi-needle]] (несколько фактов), **[[Вики/placeholder\|variable]] tracking** (отслеживание переменных), **common word extraction**. - Более реалистичен, чем простой [[Вики/Needle in a Haystack\|NIAH]].

Q: 4.4 Lost in the Middle

- Специализированный тест: контекст разбит на 20+ документов, релевантный документ размещается на разных позициях (начало, середина, конец). Измеряется [[Вики/accuracy\|accuracy]] ответа. - Хорошая [[Вики/model\|модель]] не должна терять качество при смещении релевантной информации в середину.

Краткий тезис

Выбор генеративной модели для работы с длинным контекстом (100k+ токенов) — это поиск компромисса между capacity (способностью удерживать и извлекать информацию из начала контекста), стоимостью (цена за 1M токенов), latency (время генерации) и доступностью (open-source vs проприетарная). Среди лидеров: Claude 3.5 Sonnet показывает наилучший recall, Gemini 1.5 Pro поддерживает 2M токенов с хорошей экстраполяцией, GPT-4 Turbo дешевле, но страдает от «потери середины». Для практического выбора нужно провести Needle in a Haystack тест на своих данных и оценить end-to-end качество в реальном сценарии RAG.

1. Термины

Long context — способность модели обрабатывать входную последовательность длиной более 100k токенов (например, 128k, 1M, 2M). Для RAG это означает, что можно поместить в промпт множество документов без необходимости точного retrieval.
Model selection — процесс выбора наиболее подходящей модели под задачу: по качеству, стоимости, скорости, требованиям к контексту.
Haystack|Needle in a Haystack (NIAH) — бенчмарк, в котором в середину длинного текста (сена) помещается случайное утверждение (иголка). Модель должна ответить на вопрос по этому утверждению. Измеряется recall — доля правильных ответов при разной длине контекста и позиции иголки.
Lost in the Middle — феномен, при котором модели хуже отвечают на вопросы, если релевантная информация находится в середине длинного контекста, а не в начале или конце.
Recall (полнота) в контексте long context — доля фактов из контекста, которые модель корректно использует при ответе.

2. Почему long context важен для Agentic RAG?

В архитектуре Agentic RAG агент может:

анализировать множество документов за один проход;
вести многошаговые рассуждения с сохранением истории;
обрабатывать большие результаты из инструментов (API, базы данных).

Если модель не держит длинный контекст, агент теряет связность, забывает важные детали и выдаёт неверные результаты. Поэтому выбор модели с хорошей long context fidelity — критическое решение для production-систем.

3. Ключевые модели для long context (сравнительная таблица)

Модель	Макс. контекст	Тип	Recall (NIAH)	Стоимость ($/1M токенов input)	Latency (средняя)	Open-source	Комментарий
Claude 3.5 Sonnet	2M	Проприетарная	~98% (до 200k), ~90% (2M)	$3.00 (вход) / $15.00 (выход)	Средняя (1-3 с)	Нет	Лучший recall, дорогой, медленный.
GPT-4 Turbo	1M	Проприетарная	~95% (до 128k), ~80% (1M)	$10.00 / $30.00	Средняя	Нет	Хорош, но теряет середину на больших контекстах.
GPT-4o	128k	Проприетарная	~97% (128k)	$5.00 / $15.00	Быстрая (0.5-1 с)	Нет	Баланс качества и скорости.
Gemini 1.5 Pro	2M	Проприетарная	~99% (до 500k), ~95% (2M)	$7.00 / $21.00	Средняя-высокая (2-5 с)	Нет	Лучшая экстраполяция, медленнее.
Gemini 1.5 Flash	1M	Проприетарная	~98% (до 256k), ~85% (1M)	$0.35 / $1.05	Очень быстрая	Нет	Дешёвый, быстрый, но падает качество на больших контекстах.
Llama 3.1 405B	128k	Open-source	~88% (128k)	Бесплатно (самостоятельный хостинг)	Медленная (3-5 с на GPU)	Да	Качество ниже проприетарных, дорогой хостинг.
Mistral Large	128k	Open-source	~91% (128k)	$2.00 / $6.00 (через API)	Средняя	Да	Хороший trade-off: качество близко к GPT-4o, цена ниже.
Qwen2.5 72B	128k	Open-source	~93% (128k)	Бесплатно (хостинг)	Средняя	Да	Конкурентное качество, поддержка YaRN.
Command R+	128k	Open-source	~90% (128k)	$2.50 / $10.00	Средняя	Да	Хорош для RAG, встроенная поддержка поиска.

4. Метрики и бенчмарки для long context

4.1 Needle in a Haystack (NIAH)

Что измеряет: способность найти и использовать информацию из произвольной позиции.
Процедура: создаётся «сено» — длинный текст (например, повторяющиеся предложения). В случайную позицию вставляется «иголка» (уникальный факт). Модели задаётся вопрос по иголке. Recall = доля правильных ответов при разных длинах контекста и позициях иголки.
На что смотреть: матрица «длина контекста vs позиция иголки» — модель хороша, если recall > 95% для всех комбинаций.

4.2 RULER (Extended Long-context Benchmark)

Включает до 128k токенов, тестирует multi-needle (несколько фактов), variable tracking (отслеживание переменных), common word extraction.
Более реалистичен, чем простой NIAH.

4.3 L-Eval

Набор real-world задач (юридические документы, научные статьи, логи) с длинными контекстами.
Оценка ответа LLM на вопрос (не просто recall факта).

4.4 Lost in the Middle

Специализированный тест: контекст разбит на 20+ документов, релевантный документ размещается на разных позициях (начало, середина, конец). Измеряется accuracy ответа.
Хорошая модель не должна терять качество при смещении релевантной информации в середину.

5. Факторы выбора модели

5.1 Качество (Recall)

Если задача требует точного извлечения фактов из 200k+ контекста (например, анализ юридических контрактов) — предпочтительны Claude 3.5 Sonnet или Gemini 1.5 Pro.
Если контекст до 128k — GPT-4o, Mistral Large или Qwen2.5 дают отличные результаты.

5.2 Стоимость

Для высоконагруженных систем (миллионы запросов/день) цена имеет решающее значение. Gemini 1.5 Flash ($0.35/1M вход) или Mistral Large через API ($2.00/1M) намного дешевле Claude ($3.00).
Open-source модели (Llama 3.1, Qwen2.5) можно хостить самостоятельно, но затраты на GPU могут перевесить API-вызовы.

5.3 Latency

Для интерактивных систем важно время первого токена. GPT-4o и Gemini 1.5 Flash отвечают быстрее крупных моделей.
Большие контексты увеличивают prefill (время до генерации), поэтому разница может быть существенной: Gemini 1.5 Pro с 2M токенов может иметь prefill > 10 секунд.

5.4 Open-source vs API

API: простота, высокая надёжность, масштабирование. Но зависимость от провайдера, возможный vendor lock-in.
Open-source: полный контроль, конфиденциальность данных, возможность fine-tuning под специфичный long context. Требует инженерных ресурсов (GPU, GPU-оптимизация, развёртывание).

5.5 Fine-tuning для long context

Некоторые open-source модели (Qwen2.5, Mistral) поддерживают расширение контекста через YaRN или Position Interpolation.
Если ваши данные имеют особую структуру (логи, медицинские записи), fine-tuning может улучшить recall на 5–10%.

6. Практический процесс model selection

Шаг 1. Определение требований

Максимальная длина контекста: 100k, 500k, 1M?
Бюджет на 1 запрос: $0.01, $0.10?
Допустимая задержка: 1 секунда, 5 секунд?
Конфиденциальность данных: разрешена ли отправка в облако?

Шаг 2. Тестирование на кастомных данных

Собрать семпл запросов (100–500) из вашего сценария.
Для каждого запроса подготовить контекст (документы, чанки) нужной длины (варьировать от 10k до 200k).
Запустить Needle-in-a-Haystack для нескольких позиций иголки (0%, 25%, 50%, 75%, 100% по длине).
Оценить faithfulness (проверить, что модель не галлюцинирует лишнего).
Замерить стоимость (умножить количество токенов на цену модели) и latency (среднее и p95).

Шаг 3. Анализ trade-offs

Построить таблицу scoring: оценить каждую модель по шкале 1-5 по качеству, стоимости, скорости, конфиденциальности.
Выбрать top-3 кандидата.

Шаг 4. Заключительный A/B тест

Развернуть кандидатов (через API или инференс сервер).
Провести онлайн-эксперимент на 5-10% трафика.
Сравнить метрики: user satisfaction, accuracy ответов, отказоустойчивость.
На основе статистики выбрать финальную модель.

7. Ошибки и компромиссы

Выбрать модель с максимальным контекстом (2M) — но платить за неё в 10 раз больше, если 95% запросов укладываются в 128k.
Игнорировать latency — модель с длинным контекстом может сделать пользовательский опыт невыносимым (задержка > 10 секунд).
Полагаться только на публичные бенчмарки — ваши данные могут отличаться от сена из NIAH.
Не учитывать экосистему — например, Mistral Large интегрируется с инструментами (функции, JSON), что важно для Agentic RAG.

На практике золотая середина для many use-cases — GPT-4o (128k, быстрый, дешёвый) или Mistral Large (128k, open-source, хороший recall). Если нужен контекст >128k — Gemini 1.5 Pro или Claude 3.5 Sonnet.

8. Будущее long context моделей

Gemini 2.0 обещает 10M+ контекст с улучшенным recall.
Ring Attention и Stable Ring Attention позволяют train models с 4M+ контекстом на обычных GPU.
YaRN (Yet another RoPE scaling) — техника расширения позиционных кодировок без дообучения.
Infinite Context / Infini-Attention — архитектуры для бесконечного контекста через кэширование ключей/значений.

Уже сейчас можно использовать GPT-4o с prompt caching для снижения стоимости, или Gemini 1.5 Flash для высоконагруженных систем с умеренным качеством.

Пет-проект для закрепления

Задача: Разработать скрипт для автоматического model selection по long context на кастомных данных.

Инструменты:

Python, библиотеки openai, anthropic, google-genai, transformers
Датасет из ваших реальных документов (или сгенерированный)
Бенчмарк Needle-in-a-Haystack (можно реализовать самому)

Шаги:

Скачайте примеры контекстов (например, корпус статей).
Сгенерируйте тестовые запросы с разными длинами (10k, 50k, 100k, 200k).
Для каждой модели (Claude, GPT-4o, Gemini 1.5, Mistral) выполните NIAH-тест.
Сохраните результаты в CSV: модель, длина, позиция иголки, правильность ответа, затраты, время.
Постройте heatmap recall для каждой модели.
Напишите доклад с рекомендацией.

Ожидаемый результат: Таблица с тремя лучшими моделями под ваши constraints, визуализации, готовый скрипт для переиспользования.

Связь с другими вопросами

Вопрос	Тема
1	Проектирование RAG-системы (учитывать choice модели)
2	Проблема lost in the middle (непосредственно связана)
5	Оценка качества retrieval (часть model selection)
7	Latency RAG (влияние модели на скорость)
8	Обработка запросов без ответа (способность модели сказать "не знаю")
10	Self-RAG (модель должна уметь рефлексировать над контекстом)

Краткий тезис

1. Термины

Long context — способность модели обрабатывать входную последовательность длиной более 100k токенов (например, 128k, 1M, 2M). Для RAG это означает, что можно поместить в промпт множество документов без необходимости точного retrieval.
Model selection — процесс выбора наиболее подходящей модели под задачу: по качеству, стоимости, скорости, требованиям к контексту.
Haystack|Needle in a Haystack (NIAH) — бенчмарк, в котором в середину длинного текста (сена) помещается случайное утверждение (иголка). Модель должна ответить на вопрос по этому утверждению. Измеряется recall — доля правильных ответов при разной длине контекста и позиции иголки.
Lost in the Middle — феномен, при котором модели хуже отвечают на вопросы, если релевантная информация находится в середине длинного контекста, а не в начале или конце.
Recall (полнота) в контексте long context — доля фактов из контекста, которые модель корректно использует при ответе.

2. Почему long context важен для Agentic RAG?

В архитектуре Agentic RAG агент может:

анализировать множество документов за один проход;
вести многошаговые рассуждения с сохранением истории;
обрабатывать большие результаты из инструментов (API, базы данных).

3. Ключевые модели для long context (сравнительная таблица)

Модель	Макс. контекст	Тип	Recall (NIAH)	Стоимость ($/1M токенов input)	Latency (средняя)	Open-source	Комментарий
Claude 3.5 Sonnet	2M	Проприетарная	~98% (до 200k), ~90% (2M)	$3.00 (вход) / $15.00 (выход)	Средняя (1-3 с)	Нет	Лучший recall, дорогой, медленный.
GPT-4 Turbo	1M	Проприетарная	~95% (до 128k), ~80% (1M)	$10.00 / $30.00	Средняя	Нет	Хорош, но теряет середину на больших контекстах.
GPT-4o	128k	Проприетарная	~97% (128k)	$5.00 / $15.00	Быстрая (0.5-1 с)	Нет	Баланс качества и скорости.
Gemini 1.5 Pro	2M	Проприетарная	~99% (до 500k), ~95% (2M)	$7.00 / $21.00	Средняя-высокая (2-5 с)	Нет	Лучшая экстраполяция, медленнее.
Gemini 1.5 Flash	1M	Проприетарная	~98% (до 256k), ~85% (1M)	$0.35 / $1.05	Очень быстрая	Нет	Дешёвый, быстрый, но падает качество на больших контекстах.
Llama 3.1 405B	128k	Open-source	~88% (128k)	Бесплатно (самостоятельный хостинг)	Медленная (3-5 с на GPU)	Да	Качество ниже проприетарных, дорогой хостинг.
Mistral Large	128k	Open-source	~91% (128k)	$2.00 / $6.00 (через API)	Средняя	Да	Хороший trade-off: качество близко к GPT-4o, цена ниже.
Qwen2.5 72B	128k	Open-source	~93% (128k)	Бесплатно (хостинг)	Средняя	Да	Конкурентное качество, поддержка YaRN.
Command R+	128k	Open-source	~90% (128k)	$2.50 / $10.00	Средняя	Да	Хорош для RAG, встроенная поддержка поиска.

4. Метрики и бенчмарки для long context

4.1 Needle in a Haystack (NIAH)

Что измеряет: способность найти и использовать информацию из произвольной позиции.
Процедура: создаётся «сено» — длинный текст (например, повторяющиеся предложения). В случайную позицию вставляется «иголка» (уникальный факт). Модели задаётся вопрос по иголке. Recall = доля правильных ответов при разных длинах контекста и позициях иголки.
На что смотреть: матрица «длина контекста vs позиция иголки» — модель хороша, если recall > 95% для всех комбинаций.

4.2 RULER (Extended Long-context Benchmark)

Включает до 128k токенов, тестирует multi-needle (несколько фактов), variable tracking (отслеживание переменных), common word extraction.
Более реалистичен, чем простой NIAH.

4.3 L-Eval

Набор real-world задач (юридические документы, научные статьи, логи) с длинными контекстами.
Оценка ответа LLM на вопрос (не просто recall факта).

4.4 Lost in the Middle

Специализированный тест: контекст разбит на 20+ документов, релевантный документ размещается на разных позициях (начало, середина, конец). Измеряется accuracy ответа.
Хорошая модель не должна терять качество при смещении релевантной информации в середину.

5. Факторы выбора модели

5.1 Качество (Recall)

Если задача требует точного извлечения фактов из 200k+ контекста (например, анализ юридических контрактов) — предпочтительны Claude 3.5 Sonnet или Gemini 1.5 Pro.
Если контекст до 128k — GPT-4o, Mistral Large или Qwen2.5 дают отличные результаты.

5.2 Стоимость

Для высоконагруженных систем (миллионы запросов/день) цена имеет решающее значение. Gemini 1.5 Flash ($0.35/1M вход) или Mistral Large через API ($2.00/1M) намного дешевле Claude ($3.00).
Open-source модели (Llama 3.1, Qwen2.5) можно хостить самостоятельно, но затраты на GPU могут перевесить API-вызовы.

5.3 Latency

Для интерактивных систем важно время первого токена. GPT-4o и Gemini 1.5 Flash отвечают быстрее крупных моделей.
Большие контексты увеличивают prefill (время до генерации), поэтому разница может быть существенной: Gemini 1.5 Pro с 2M токенов может иметь prefill > 10 секунд.

5.4 Open-source vs API

API: простота, высокая надёжность, масштабирование. Но зависимость от провайдера, возможный vendor lock-in.
Open-source: полный контроль, конфиденциальность данных, возможность fine-tuning под специфичный long context. Требует инженерных ресурсов (GPU, GPU-оптимизация, развёртывание).

5.5 Fine-tuning для long context

Некоторые open-source модели (Qwen2.5, Mistral) поддерживают расширение контекста через YaRN или Position Interpolation.
Если ваши данные имеют особую структуру (логи, медицинские записи), fine-tuning может улучшить recall на 5–10%.

6. Практический процесс model selection

Шаг 1. Определение требований

Максимальная длина контекста: 100k, 500k, 1M?
Бюджет на 1 запрос: $0.01, $0.10?
Допустимая задержка: 1 секунда, 5 секунд?
Конфиденциальность данных: разрешена ли отправка в облако?

Шаг 2. Тестирование на кастомных данных

Собрать семпл запросов (100–500) из вашего сценария.
Для каждого запроса подготовить контекст (документы, чанки) нужной длины (варьировать от 10k до 200k).
Запустить Needle-in-a-Haystack для нескольких позиций иголки (0%, 25%, 50%, 75%, 100% по длине).
Оценить faithfulness (проверить, что модель не галлюцинирует лишнего).
Замерить стоимость (умножить количество токенов на цену модели) и latency (среднее и p95).

Шаг 3. Анализ trade-offs

Построить таблицу scoring: оценить каждую модель по шкале 1-5 по качеству, стоимости, скорости, конфиденциальности.
Выбрать top-3 кандидата.

Шаг 4. Заключительный A/B тест

Развернуть кандидатов (через API или инференс сервер).
Провести онлайн-эксперимент на 5-10% трафика.
Сравнить метрики: user satisfaction, accuracy ответов, отказоустойчивость.
На основе статистики выбрать финальную модель.

7. Ошибки и компромиссы

Выбрать модель с максимальным контекстом (2M) — но платить за неё в 10 раз больше, если 95% запросов укладываются в 128k.
Игнорировать latency — модель с длинным контекстом может сделать пользовательский опыт невыносимым (задержка > 10 секунд).
Полагаться только на публичные бенчмарки — ваши данные могут отличаться от сена из NIAH.
Не учитывать экосистему — например, Mistral Large интегрируется с инструментами (функции, JSON), что важно для Agentic RAG.

8. Будущее long context моделей

Gemini 2.0 обещает 10M+ контекст с улучшенным recall.
Ring Attention и Stable Ring Attention позволяют train models с 4M+ контекстом на обычных GPU.
YaRN (Yet another RoPE scaling) — техника расширения позиционных кодировок без дообучения.
Infinite Context / Infini-Attention — архитектуры для бесконечного контекста через кэширование ключей/значений.

Пет-проект для закрепления

Задача: Разработать скрипт для автоматического model selection по long context на кастомных данных.

Инструменты:

Python, библиотеки openai, anthropic, google-genai, transformers
Датасет из ваших реальных документов (или сгенерированный)
Бенчмарк Needle-in-a-Haystack (можно реализовать самому)

Шаги:

Скачайте примеры контекстов (например, корпус статей).
Сгенерируйте тестовые запросы с разными длинами (10k, 50k, 100k, 200k).
Для каждой модели (Claude, GPT-4o, Gemini 1.5, Mistral) выполните NIAH-тест.
Сохраните результаты в CSV: модель, длина, позиция иголки, правильность ответа, затраты, время.
Постройте heatmap recall для каждой модели.
Напишите доклад с рекомендацией.

Связь с другими вопросами

Вопрос	Тема
1	Проектирование RAG-системы (учитывать choice модели)
2	Проблема lost in the middle (непосредственно связана)
5	Оценка качества retrieval (часть model selection)
7	Latency RAG (влияние модели на скорость)
8	Обработка запросов без ответа (способность модели сказать "не знаю")
10	Self-RAG (модель должна уметь рефлексировать над контекстом)

Как вы делаете model selection для long context (какая модель лучше держит 100k+)?

Краткий тезис

1. Термины

2. Почему long context важен для Agentic RAG?

3. Ключевые модели для long context (сравнительная таблица)

4. Метрики и бенчмарки для long context

4.1 Needle in a Haystack (NIAH)

4.2 RULER (Extended Long-context Benchmark)

4.3 L-Eval

4.4 Lost in the Middle

5. Факторы выбора модели

5.1 Качество (Recall)

5.2 Стоимость

5.3 Latency

5.4 Open-source vs API

5.5 Fine-tuning для long context

6. Практический процесс model selection

Шаг 1. Определение требований

Шаг 2. Тестирование на кастомных данных

Шаг 3. Анализ trade-offs

Шаг 4. Заключительный A/B тест

7. Ошибки и компромиссы

8. Будущее long context моделей

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Как вы делаете model selection для long context (какая модель лучше держит 100k+)?

Краткий тезис

1. Термины

2. Почему long context важен для Agentic RAG?

3. Ключевые модели для long context (сравнительная таблица)

4. Метрики и бенчмарки для long context

4.1 Needle in a Haystack (NIAH)

4.2 RULER (Extended Long-context Benchmark)

4.3 L-Eval

4.4 Lost in the Middle

5. Факторы выбора модели

5.1 Качество (Recall)

5.2 Стоимость

5.3 Latency

5.4 Open-source vs API

5.5 Fine-tuning для long context

6. Практический процесс model selection

Шаг 1. Определение требований

Шаг 2. Тестирование на кастомных данных

Шаг 3. Анализ trade-offs

Шаг 4. Заключительный A/B тест

7. Ошибки и компромиссы

8. Будущее long context моделей

Пет-проект для закрепления

Связь с другими вопросами

Навигация