Поиск

answerКак вы обрезаете контекст, когда retrieved documents > контекстного окна LLM?
…Ключевая идея [[Вики/LLM\|LLM]] имеет ограниченное [[Вики/Token budgets\|контекстное окно]] (4k-128k токенов). Если [[Вики/retrieval\|retrieval]] вернул…
wikiToken budgets
# Token budgets ## Определение Ограничение на количество токенов, выделенных для различных компонентов (системный промпт, история, инструменты) при взаимодействии с LLM; используется…
wikicontext window
# context window ## Определение Максимальное количество токенов, которое LLM может обработать за один раз. Ограничивает объём хранимой истории и влияет на…
wikiLatent Reasoning
…пространстве эмбеддингов, не генерируя видимых токенов, что позволяет экономить контекстное окно. ## Где встречается - [[152. В чем разница между Chain-of…
answerКак вы управляете контекстным окном (context window) для длинных диалогов?
…Контекстное окно (context window) Что это [[Вики/max tokens\|Максимальное количество токенов]], которое [[Вики/LLM\|LLM]] может обработать за один…
answerКак работает memory compression для агентов (long-term memory)?
…контекстное окно и «забывание» агентов [[Вики/долгосрочная память\|Long-term memory]] ([[Вики/qdrant-client\|долговременная память]]) в контексте AI-агентов…
wikitop-k
…Выбор k наиболее релевантных документов для вписывания в контекстное окно. ## Где встречается - [[14. Как вы обрезаете контекст, когда retrieved documents…
answerЧто такое Context Engineering в рамках Harness и почему это отдельный слой?
…проблема контекстного окна [[Вики/Token budgets\|Контекстное окно]] ([[Вики/context window\|context window]]) — [[Вики/max tokens\|максимальное количество токенов]], которое…
answerКак вы храните историю диалога в RAG для multi-turn QA?
…Но [[Вики/Token budgets\|контекстное окно LLM]] ограничено (4k-128k токенов). Решения: [[Вики/moving average\|sliding window]] (храним последние N…
answerКакие ограничения у language representation design?
…Если [[Вики/context window\|контекстное окно]] — 8K токенов, на документы остаётся 6K, что может быть недостаточно для сложного запроса. Следствие…
answerКак работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения?
…Как вы анализируете embedding geometry для отладки retrieval качества\|285]] | Что такое контекстное окно и как оно связано с токенизацией…
answerКак вы обрабатываете большие таблицы в RAG (500+ строк)?
…Основные проблемы с большими таблицами | Проблема | Описание | Следствие | |----------|----------|-----------| | [[Вики/Token budgets\|Контекстное окно]] | 500 строк могут занимать 20–50 тыс…
answerКакие стратегии chunking'а вы знаете и когда какую применяете?
…Зачем нужен [[Вики/chunking\|chunking]] | Причина | Объяснение | | --- | --- | | [[Вики/context window\|Контекстное окно LLM]] | LLM имеют ограниченное окно (4k-128k токенов…
answerКак вы решаете проблему «lost in the middle» при работе с длинными контекстами?
…для близких токенов, но могут ослабевать для середины | | Ограниченное контекстное окно | Модель не может одинаково хорошо обработать все 128k токенов…
answerКак делать evaluation для long-context RAG (>100k токенов)?
…retrieval\|Retrieval-Augmented Generation]], в которой [[Вики/Token budgets\|контекстное окно]] модели (например, GPT-4-32k, [[Вики/Claude API\|Claude…
answerЧто такое agent state management (состояние агента между вызовами)?
…слишком длинный [[Вики/краткосрочная память\|буфер]] превышает [[Вики/Token budgets\|контекстное окно LLM]] → нужно применять **[[Вики/summarization\|summarization]]** или **[[Вики…
answerКак вы детектируете Distribution Collapse у агента?
…проводился на однотипных данных, агент теряет способность к обобщению. | | Контекстное загрязнение | В длинных сессиях агент «зацикливается» на предыдущих своих ответах…
answerВ чем разница между Chain-of-Thought (CoT) и Latent Reasoning?
…Плюсы - [[Вики/Token budgets\|Контекстное окно]] не расширяется — нет дополнительных токенов. - Быстрее: можно контролировать количество внутренних шагов (гиперпараметр K). - Потенциально…
answerЧто такое position encoding? RoPE vs абсолютные позиции vs относительные позиции?
…простоте и скорости. - Позволяет легко увеличивать [[Вики/context window\|контекстное окно]] (например, с 4K до 32K) без дообучения с нуля…
answerЧто такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
…Для больших изображений (1024×1024) — 4096 токенов, что может превысить контекстное окно. - Зависимость от кодовой книги. Размер codebook (K) — гиперпараметр…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить cost efficiency провайдеров LLM (GPT-4 vs Claude vs Llama-3 self-hosted)
…product'",positive, ... ``` 3. **Проверить, что каждый промпт укладывается в контекстное окно 8K (Llama-3 70B).** - Использовать `tiktoken` для подсчёта токенов…
answerКак вы передаете состояние (state) между шагами агента?
…cost\|затраты]] на [[Вики/LLM\|LLM]] ([[Вики/Token budgets\|контекстное окно]]). 2. Конфликты при параллелизме — если [[Вики/agent\|агент]] запускает…
answerКак вы проектируете feature engineering для контекста RAG (кроме текста)?
…Проектирование включает выбор релевантных метаданных, их нормализацию, форматирование и интеграцию в [[Вики/Token budgets\|контекстное окно]]. --- ## 1. Термин: Feature Engineering…
answerКак вы делаете agent с bounded rationality (ограниченные вычислительные ресурсы)?
…время ответа | ≤ 2 с | Избегать длинных генераций, параллелить | | Память (контекстное окно) | ≤ 128K токенов (у GPT-4) | Ограничивать историю шагов | --- ## 3…
answerКак работает Infini-attention (Google, 2024) для бесконечного контекста?
…документов, диалогов или истории агента. **Термин «[[Вики/Token budgets\|контекстное окно]]»** — [[Вики/max tokens\|максимальное количество токенов]], которое [[Вики/model…
answerКак бы вы спроектировали RAG-систему для 10 000 документов с разной структурой (PDF, Word, сканы, HTML, Excel)?
…что [[Вики/LLM\|LLM]] имеет ограниченное [[Вики/Token budgets\|контекстное окно]] (обычно 4k-128k токенов). | Стратегия | Как работает | Когда использовать…
answerКакие есть типичные failure modes в harness-engineering (over-decomposition, over-pruning)?
…позволить агенту самому определять уровень детализации, а не навязывать жёсткую схему. - Ввести **контекстное окно** (context window) в harness: агент должен…
indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING
…Rate limiting | Dist 196, Dist 200, I 180 | | 66 | Контекстное окно | H 104, P 168, Inf 212 | | 67 | Prompt injection…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…если оно слишком сложное > - Увеличивает сложность промпта (риск потерять контекстное окно) **199. Как вы combine language representation с DSPy?** > *Ответ…