Поиск
- wikiQwen2.5-1.5B-Instruct
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)|631. Как вы делаете длинный контекст для RAG (100k…
- wikiStreamingLLM
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)|631. Как вы делаете длинный контекст для RAG (100k…
- wikiContextual retrieval
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)|631. Как вы делаете длинный контекст для RAG (100k…
- wikiGPT-4 Turbo
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)|631. Как вы делаете длинный контекст для RAG (100k…
- wikiNeedle in a Haystack
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)|631. Как вы делаете длинный контекст для RAG (100k…
- wikiattention sink
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)|631. Как вы делаете длинный контекст для RAG (100k…
- wikisummarization
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)|631. Как вы делаете длинный контекст для RAG (100k…
- wikiPrompt compression
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)|631. Как вы делаете длинный контекст для RAG (100k…
- wikiFlash Attention 2
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)|631. Как вы делаете длинный контекст для RAG (100k…
- wikiLong Context RAG
…Что такое hierarchical retrieval для long context RAG (когда контекст 100k)|645. Что такое hierarchical retrieval для long context RAG…
- wikiselective pruning
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)|631. Как вы делаете длинный контекст для RAG (100k…
- wikiClaude 3.5 Sonnet
# Claude 3.5 Sonnet ## Определение Проприетарная модель Anthropic с контекстом до 2M токенов, показывает лучший recall в бенчмарках на длинный…
- answerКак вы делаете длинный контекст для RAG (100k+ токенов в контексте)?
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)? ## Краткий тезис Обработка контекста длиной 100k+ токенов в RAG…
- wikiLost in the Middle
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)|631. Как вы делаете длинный контекст для RAG (100k…
- wiki8-bit quantization
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)|631. Как вы делаете длинный контекст для RAG (100k…
- wikiMistral
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)|631. Как вы делаете длинный контекст для RAG (100k…
- answerКак вы проектируете промпт для long context рассуждения (CoT, ToT, GoT)?
…Техники для long context в промптах ### 6.1 Структурирование контекста - Разделяй длинный текст на части с заголовками: `[ЧАСТЬ 1]`, `[ЧАСТЬ…
- wikiprefill stage
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)|631. Как вы делаете длинный контекст для RAG (100k…
- wikiLlamaIndex
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)|631. Как вы делаете длинный контекст для RAG (100k…
- wikiLong Context
…Что такое selective attention в контексте long context обработки|283. Что такое selective attention в контексте long context обработки]] - [[301…
- wikiSliding window chunking
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)|631. Как вы делаете длинный контекст для RAG (100k…
- wikiTensorRT-LLM
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)|631. Как вы делаете длинный контекст для RAG (100k…
- answerКак вы делаете agent evaluation на длинных horizon (100+ шагов)?
…Horizon (горизонт) в контексте AI-агентов [[Вики/Horizon\|Horizon]] — это [[Вики/max_length\|максимальная длина]] траектории (количество шагов), которую [[Вики…
- answerКак вы измеряете reasoning degradation с ростом контекста? (curse of length)
…разбивать длинный контекст на окна и обрабатывать последовательно (например, RecurrentGPT, MemWalker). - Fine-tuning на длинных контекстах: дообучение с примерами, где…
- answerЧто такое "lost in the middle" и как это связано с attention sink?
…если в [[Вики/промпт агента\|промпт]] подаётся [[Вики/Long Context\|длинный контекст]] (например, несколько документов), [[Вики/model\|модель]] с высокой…
- answerКак вы тестируете long-context capability модели (бенчмарки: RULER, Needle in a Haystack)?
…LongBench и другие бенчмарки [[Вики/LongBench\|LongBench]] — набор из 21 задачи на [[Вики/Long Context\|длинный контекст]] (QA, [[Вики/summarization…
- answerКак вы делаете model selection для long context (какая модель лучше держит 100k+)?
…Если [[Вики/model\|модель]] не держит [[Вики/Long Context\|длинный контекст]], [[Вики/agent\|агент]] теряет [[Вики/coherence\|связность]], забывает важные…
- answerКак работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты?
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)\|631]] | Как устроен механизм sliding window attention? | | [[635. Как…
- answerКак работает Infini-attention (Google, 2024) для бесконечного контекста?
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)\|631]] | Механизмы памяти в RAG-агентах | | [[633. Как вы…
- answerЧто такое chunked prefill и зачем он нужен?
…Основная цель — снизить **TTFT (Time-to-First-Token)** для сверхдлинных контекстов (например, 100k токенов) ценой небольшого уменьшения **throughput**. Техника особенно…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать документацию промпта
…Проверьте поведение на граничных случаях - Пустой `{dialog_text}` (или очень короткое сообщение) - Очень длинный диалог ([[Вики/Overage\|превышение лимита]] контекстного…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать postmortem для неудачного делегирования
…не справился, но имеет ограничение по времени или контексту (например, слишком длинный [[Вики/промпт агента\|промпт]] от А). 2. Задайте…
- answerКакие стратегии chunking'а вы знаете и когда какую применяете?
…Как вы обрезаете контекст, когда retrieved documents больше контекстного окна LLM\|14]] | Обрезка контекста (большие чанки могут не влезть) | | [[19…
- answerКак вы оцениваете faithfulness ответа на длинном контексте (когда много информации)?
…50 запросов, для каждого — длинный контекст (10-20 чанков) и эталонный ответ. 2. Реализовать RAG-пайплайн: retrieval (FAISS + эмбеддинги), генерация…
- answerКак тестировать промпты на регрессии (prompt regression suite)?
…а не краш или бессмысленный текст. - **Очень длинный [[Вики/Prompt engineering\|запрос]] (> контекстного окна):** либо обрезается, либо возвращается [[Вики/Failure…
- answerКак вы оцениваете reasoning capability (не просто recall) на длинном контексте?
…Reasoning\|reasoning]] на длинном контексте напрямую применима: - Агент получает много документов ([[Вики/Long Context\|длинный контекст]]). - Должен сделать многошаговый вывод…
- answerКак работает YaRN (Yet another RoPE extensioN) для увеличения контекста?
…Результаты: | Масштаб s | Целевая длина | Perplexity (длинный контекст) | Perplexity (короткий контекст) | Шагов дообучения | |-----------|---------------|-------------------------------|--------------------------------|------------------| | 8 | 32K | 3.2 | 3.1 (без…
- answerКак работает prefix caching и prompt caching у провайдеров?
…На практике при работе с длинными системными промптами или однотипными префиксами (сотни/тысячи запросов с одинаковым контекстом) [[Вики/model\|модель…
- answerКак вы детектируете и фиксите attention sinks в длинных контекстах?
…Это ухудшает качество генерации на длинных контекстах, особенно в RAG-системах, где контекст может содержать много документов. Детектирование основано на…
- answerКак вы оцениваете faithfulness без ground truth (если нет правильного ответа)?
…модели могут путать [[Вики/entailment\|entailment]] с нейтральным, если контекст длинный или содержит много деталей. - [[Вики/RAGAS\|RAGAS]] требует много…
- answerЧто такое selective attention в контексте long context обработки?
…Что такое selective attention в контексте long context обработки? ## Краткий тезис Selective attention — это механизм, при котором модель обрабатывает только…
- answerЧто такое Context Engineering в рамках Harness и почему это отдельный слой?
…Context\|длинный контекст]] увеличивает [[Вики/Latency\|latency]] ([[Вики/Memory\|память]] внимания квадратична). - [[Вики/divergence\|Нестабильность]] кэша — частые изменения контекста разрушают…
- answerКак работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)?
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)\|631]] | Сравнение современных LLM по длине контекста | --- ## Навигация (Obsidian…
- answerКак вы проектируете feature engineering для контекста RAG (кроме текста)?
…Сжатие фич если контекст слишком длинный, агрегируем фичи по группам документов (средняя recency, медианный authority). ## 9. Проблемы и подводные камни…
- answerКак работают inference schedulers (FCFS, Priority, Fairness)?
…В контексте [[Вики/Agentic RAG\|Agentic RAG]] (особенно при мультиагентных сценариях, где множество агентов параллельно делают [[Вики/Query\|запросы]] к…
- answerКак вы решаете проблему «lost in the middle» при работе с длинными контекстами?
…Как вы обрезаете контекст, когда retrieved documents больше контекстного окна LLM\|14]] | Обрезка контекста когда retrieved docs > context window | | [[18…
- answerКак делать evaluation для long-context RAG (>100k токенов)?
…LongBench — комплексный бенчмарк [[Вики/LongBench\|LongBench]] — набор из 21 задачи на [[Вики/Long Context\|длинный контекст]], охватывающий разные сценарии: однодокументный…
- answerКак вы проектируете feature engineering для контекста RAG (кроме текста)?
…Где размещать префикс - Перед каждым чанком — наиболее надёжно, но увеличивает длину контекста. - В начале всего контекста (например, `Контекст состоит из…
- answerЧто такое attention sink и почему он возникает в длинных контекстах?
…Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)\|631]] | Long context LLM | | [[632. Как работает Infini-attention…
- answerКак вы делаете long context для code generation (модель должна видеть весь репозиторий)?
…Проблема: «Весь репозиторий» — это неразумно [[Вики/Long Context\|Long context]] ([[Вики/Long Context\|длинный контекст]]) — способность [[Вики/LLM\|LLM]] обрабатывать…