Поиск

wikiBase frequency
# Base frequency ## Определение Параметр RoPE, определяющий скорость вращения для каждого измерения (обычно 10000), влияющий на экстраполяцию на длинные контексты. ## Где…
wikiZero-shot extrapolation
# Zero-shot extrapolation ## Определение Экстраполяция позиционных эмбеддингов (например, RoPE) на более длинные контексты без дополнительного обучения, как в NTK-aware…
wikiAttention score
…Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты|630. Как работает RoPE (Rotary Position Embeddings) для экстраполяции…
wikiComplex plane rotation
…Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты|630. Как работает RoPE (Rotary Position Embeddings) для экстраполяции…
wikiLearnable embeddings
…Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты|630. Как работает RoPE (Rotary Position Embeddings) для экстраполяции…
wikiSinusoidal Positional Encoding
…Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты|630. Как работает RoPE (Rotary Position Embeddings) для экстраполяции…
wikiExtrapolation
…Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты|630. Как работает RoPE (Rotary Position Embeddings) для экстраполяции…
wikiPosition Interpolation
…Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты|630. Как работает RoPE (Rotary Position Embeddings) для экстраполяции…
wikiNTK-aware RoPE
…Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты|630. Как работает RoPE (Rotary Position Embeddings) для экстраполяции…
wikiRelative Position Encoding
…Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты|630. Как работает RoPE (Rotary Position Embeddings) для экстраполяции…
wikiYaRN
…Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты|630. Как работает RoPE (Rotary Position Embeddings) для экстраполяции…
wikixPos
# xPos ## Определение Улучшение позиционного кодирования RoPE с экспоненциальным затуханием, позволяющее модели эффективно обрабатывать длинные контексты. ## Где встречается - [[653. Что такое…
wikirolling cache
# rolling cache ## Определение Техника для sliding window attention, позволяющая обрабатывать длинные контексты путем циклического буферизованного кэширования. ## Где встречается - [[647. Как…
wikiSnapKV
# SnapKV ## Определение Метод сжатия KV-кэша, который выбирает ключевые токены на основе паттернов attention, позволяя поддерживать длинные контексты с меньшим…
wikiTransformer-XL
# Transformer-XL ## Определение Архитектура трансформера с рекуррентностью и кэшем предыдущих сегментов, позволяющая обрабатывать длинные контексты без сжатия. ## Где встречается - [[632…
wikiFlexGen
# FlexGen ## Определение Библиотека для offloading KV cache на CPU или диск, позволяющая обрабатывать длинные контексты при ограниченной памяти GPU. ## Где…
wikiRoPE
…Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты|630. Как работает RoPE (Rotary Position Embeddings) для экстраполяции…
wikiALiBi
…Обеспечивает хорошую экстраполяцию на длинные контексты. ## Где встречается - [[278. Как работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций…
answerКак работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)?
…Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты\|630]] | KV cache management и оптимизация | | [[631. Как вы…
answerКак работает sliding window attention в Mistral и Longformer?
…Применение в Agentic RAG В [[Вики/Agentic RAG\|Agentic RAG]] агент часто обрабатывает длинные контексты: историю диалога, несколько документов, результаты…
answerКак работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты?
…Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты? ## Краткий тезис **[[Вики/RoPE\|RoPE]] ([[Вики/RoPE\|Position Embeddings…
wikiLong Context
# Long Context ## Определение Режим работы моделей, требующий обработки входных последовательностей большой длины (например, более 50k токенов), что создаёт вызовы для…
wikisparse attention
…сложность до O(n·k·d) и позволяя обрабатывать длинные контексты. ## Где встречается - [[210. Что такое chunked prefill и зачем…
answerКак работает YaRN (Yet another RoPE extensioN) для увеличения контекста?
…Практическое применение в RAG и AI-агентах В контексте [[Вики/Agentic RAG\|Agentic RAG]] [[Вики/Long Context\|длинные контексты]] критичны…
answerЧто такое position encoding? RoPE vs абсолютные позиции vs относительные позиции?
…Влияние на длинные контексты и RAG В [[Вики/Agentic RAG\|Agentic RAG]] модели часто работают с контекстами, содержащими множество извлечённых…
answerПочему tokenizer влияет на стоимость training?
…Это критично для [[Вики/Agentic RAG\|Agentic RAG]], где модели часто обрабатывают [[Вики/Long Context\|длинные контексты]] (много retrieved документов…
answerКак вы делаете длинный контекст для RAG (100k+ токенов в контексте)?
…Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты\|630]] | Как вы уменьшаете latency RAG-системы? | | [[632. Как…
answerКак вы детектируете и фиксите attention sinks в длинных контекстах?
…За счёт этого можно использовать более длинные контексты, но сам по себе он не решает проблему sink — только делает вычисления…
answerЧто такое prompt caching у провайдеров (Anthropic, Google) и как его использовать?
…Кэшировать можно [[Вики/промпт агента\|системный промпт]], первые сообщения в диалоге или [[Вики/Long Context\|длинные контексты]]. **Пример запроса ([[Вики…
answerЧто такое attention sink и почему он возникает в длинных контекстах?
…Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты\|630]] | Sliding window attention | | [[631. Как вы делаете длинный…
answerКак работает динамическое бэтчирование в TGI vs vLLM?
…Вики/Paged Attention\|vLLM]]. - Используются очень [[Вики/Long Context\|длинные контексты]] (32k+), где [[Вики/Swap\|swap]] может стать узким местом…
answerЧто такое индуктивные biases трансформеров? (positional invariance, order sensitivity)?
…дополнительных параметров и хорошо экстраполируется на [[Вики/Long Context\|длинные контексты]]. - **[[Вики/ALiBi\|ALiBi]] ([[Вики/ALiBi\|Attention with Linear Biases…
answerКак работает Multi-query attention (MQA) для long context?
…4.3. [[Вики/Scale\|Масштабирование]] на [[Вики/Long Context\|длинные контексты]] [[Вики/Multi-Query Attention\|MQA]] — ключевой компонент в моделях…
answerКак вы оцениваете reasoning capability (не просто recall) на длинном контексте?
…Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты\|630]] | Как спроектировать архитектуру Agentic RAG? | | [[632. Как работает…
wikiFlashAttention
…Поддерживает длинные контексты до 1M токенов. ## Где встречается - [[7. Как вы уменьшаете latency RAG-системы (время ответа)|7. Как вы…
answerКак работает Mamba (State Space Model) и чем она лучше трансформера?
…Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100\|705]] | Как обрабатывать длинные контексты в RAG? | | [[710. Бенчмаркинг LLM…
answerЧто такое memory-efficient attention для long context на 8x H100?
…Что такое hierarchical retrieval для long context RAG (когда контекст 100k)\|645]] | Как вы обрабатываете длинные контексты в Agentic RAG…
answerКак работает FlashAttention-3 технически? Чем отличается от FA2?
…Применение в контексте Agentic RAG В [[Вики/Agentic RAG\|Agentic RAG]] агенты часто обрабатывают длинные контексты (история диалога, retrieved documents…
answerКак измерять faithfulness для long-form ответов (1000+ токенов)?
…Минусы NLI-модели часто не масштабируются на [[Вики/Long Context\|длинные контексты]] (ограничение 512 токенов); одно предложение может содержать несколько…
answerКак работает attention с линейной сложностью (Linformer, Performer, Longformer)?
…контексты. Плюсы - Интуитивно понятен, легко реализовать. - Хорошо работает на задачах, где важна локальная информация (текст, геномы). - Поддерживает очень длинные последовательности…
answerКак работает membership inference атака на LLM?
…2. [[Вики/Long Context\|Длинные контексты]] — можно вычислять loss для каждой позиции. 3. Memorization — не синоним overfitting. Модели могут точно…
answerКак устроен KV cache? Почему он bottleneck?
…управление KV cache | | 840 | Архитектура decoder-only трансформера | | 842 | Оптимизация inference (batch, tensor parallelism) | | 845 | Sparse Attention и длинные контексты…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать evaluation для long context (Needle in a Haystack на 32k, 64k, 128k)
…Recall, Precision, F1) | | 127 | Методы тестирования capacity модели на длинные контексты | | 203 | Pipeline для бенчмаркинга LLM с помощью synthetic data…
answerКак работает Infini-attention (Google, 2024) для бесконечного контекста?
…Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты\|630]] | Архитектура Agentic RAG | | [[631. Как вы делаете длинный…
answerКак вы оцениваете faithfulness без ground truth (если нет правильного ответа)?
…Минусы - Модели могут плохо обрабатывать [[Вики/Long Context\|длинные контексты]]. - Чувствительны к формулировкам. Сравнение [[Вики/Self-reflection\|self-check]] vs…
answerКак работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций?
…Когда RoPE особенно полезна - [[Вики/Long Context RAG\|Long-context RAG]]: [[Вики/agent\|агент]] может получать длинные документы (10k+ токенов…
answerПочему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?
…Позволяет обрабатывать контексты до 128k токенов на одном GPU. - [[Вики/Paged Attention\|vLLM]] — библиотека для инференса, оптимизирующая кэш ключей/значений…
answerКак вы измеряете reasoning degradation с ростом контекста? (curse of length)
…Метрика критична для [[Вики/Agentic RAG\|Agentic RAG]], где [[Вики/AI agents\|агенты]] обрабатывают длинные истории диалогов и множество документов…
answerЧто такое activation offloading и когда он нужен?
…Когда нужен Activation Offloading Основные сценарии: | Сценарий | Пример | Необходимость | |----------|--------|---------------| | Обучение с очень длинным контекстом | >50k токенов (целые книги, длинные документы…
answerЧто такое data exfiltration через LLM (утечка данных через ответы)?
…Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты\|630]] | Compliance (GDPR, HIPAA) для LLM | --- ## Навигация (Obsidian) - Предыдущий…