Поиск

  • wikidilated sliding window

    # dilated sliding window ## Определение Разновидность разреженного внимания с шагом (dilation) между токенами окна, позволяющая увеличить рецептивное поле без роста размера…

  • answerКак работает sliding window attention в Mistral и Longformer?

    …Идея sliding window attention [[Вики/Sliding window chunking\|Sliding window attention]] (также known as [[Вики/Sliding window chunking\|local attention…

  • wikiSliding window cache

    # Sliding window cache ## Определение Стратегия кэширования только последних N токенов в KV cache для экономии памяти в длинных диалогах. ## Где…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать SLO для faithfulness

    …Вы настроите измерение [[Вики/No hallucination\|faithfulness]] (фактологической верности) с помощью [[Вики/RAGAS\|RAGAS]], рассчитаете [[Вики/SLI\|SLI]] ([[Вики/SLI

  • wikiSliding window chunking

    …Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…

  • wikiLongformer

    # Longformer ## Определение Модель-трансформер с разреженным вниманием, комбинирующая sliding window attention и глобальные токены для эффективной обработки длинных документов. ## Где…

  • wikireceptive field

    # receptive field ## Определение Максимальная дистанция, на которую токен может влиять через цепочку слоёв; в моделях со sliding window attention растёт…

  • wikifull attention

    …Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…

  • answerЧто такое sliding window attention и зачем он в Mistral?

    …Что такое sliding window attention и зачем он в Mistral? ## Краткий тезис **[[Вики/Longformer\|Sliding window attention]] ([[Вики/Sliding window…

  • wikiTask Completion Rate

    …Используется как Service Level Indicator (SLI) для оценки производительности агентных систем в продакшене. ## Где встречается - [[388. Что такое SLI (Service…

  • wikiTemporal partitioning

    # Temporal partitioning ## Определение Программное разделение GPU по времени, при котором драйвер переключает контексты между задачами с квантами времени, используется для…

  • wikiglobal attention

    …Используется в Longformer в комбинации со sliding window attention. ## Где встречается - [[629. Как работает sliding window attention в Mistral и…

  • wikiStep Latency

    …Что такое SLI (Service Level Indicators) для AI системы и как их собирать|388. Что такое SLI (Service Level Indicators…

  • wikiTool Success Rate

    …Что такое SLI (Service Level Indicators) для AI системы и как их собирать|388. Что такое SLI (Service Level Indicators…

  • wikiRolling Buffer Cache

    …Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…

  • wikiGlobal + Local Attention

    …Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…

  • answerЧто такое SLI (Service Level Indicators) для AI системы и как их собирать?

    …Что такое SLI (Service Level Indicators) для AI системы и как их собирать? ## Краткий тезис **[[Вики/SLA\|SLI]] ([[Вики/SLI

  • wikiSLI

    # SLI ## Определение Измеряемые метрики (latency, faithfulness, availability) уровня обслуживания, используемые для мониторинга выполнения SLO и SLA. ## Где встречается - [[381. Как…

  • wikip95

    …Что такое SLI (Service Level Indicators) для AI системы и как их собирать|388. Что такое SLI (Service Level Indicators…

  • wikiMistral

    # Mistral ## Определение Семейство языковых моделей, использующих RMSNorm вместо LayerNorm и sliding window attention с окном 4096 токенов для эффективной обработки…

  • wikiPre-fill

    …Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…

  • answerКак вы определяете SLO и SLA для LLM сервиса?

    …SLO, SLA, SLI, Error Budget **[[Вики/SLA\|SLI]] ([[Вики/SLI\|Service Level Indicator]])** — измеряемая метрика, отражающая текущее [[Вики/state\|состояние…

  • wikiGrouped-Query Attention

    …Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…

  • wikisparse attention

    …Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…

  • answerЧто такое error budget для AI качества и как его считать?

    …SLO, SLI, error budget **[[Вики/SLO\|SLO]] ([[Вики/SLO\|Service Level Objective]])** — целевой показатель качества сервиса, выраженный в процентах или…

  • wikiPII leakage

    …Что такое SLI (Service Level Indicators) для AI системы и как их собирать|388. Что такое SLI (Service Level Indicators…

  • wikilinear complexity

    …Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…

  • wikitoxic content

    …Что такое SLI (Service Level Indicators) для AI системы и как их собирать|388. Что такое SLI (Service Level Indicators…

  • wikimoving average

    # moving average ## Определение Скользящее среднее (moving average) — метод сглаживания временных рядов, при котором значение в каждой точке заменяется средним за…

  • answerКак вы детектируете и фиксите attention sinks в длинных контекстах?

    Sliding window attention (SWA) [[Вики/Sliding window chunking\|Sliding window attention]] ограничивает область внимания каждого токена фиксированным окном (например, 1024…

  • answerКак вы делаете длинный контекст для RAG (100k+ токенов в контексте)?

    Sliding window attention [[Вики/Sliding window chunking\|Sliding window attention]] — механизм, при котором каждый [[Вики/token\|токен]] «видит» только [[Вики…

  • wikiкраткосрочная память

    # краткосрочная память ## Определение Компонент памяти агента, хранящий последние N сообщений или переменные текущей сессии (например, в Redis с TTL). Обычно…

  • answerКак работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)?

    Sliding Window Attention (Mistral, Longformer) [[Вики/Sliding window chunking\|Sliding window attention]] ограничивает область внимания каждого токена окном фиксированного размера…

  • wikiBigBird

    …Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…

  • wikiTime window

    # Time window ## Определение Период (например, количество запросов или интервал времени) для вычисления скользящих средних метрик SLI. ## Где встречается - [[26. Реализовать…

  • wikiLLM с памятью

    # LLM с памятью ## Определение Архитектурный подход, в котором LLM хранит историю предыдущих кадров (sliding window) для сохранения контекста при анализе…

  • wikiAnswer quality

    …Что такое SLI (Service Level Indicators) для AI системы и как их собирать|388. Что такое SLI (Service Level Indicators…

  • answerЧто такое rate limiting на разных уровнях (user, API key, IP, global) и как реализовать?

    …self.redis = redis_client def check_sliding_window(self, key: str, limit: int, window: int = 60) -> bool: """Sliding window counter…

  • answerЧто такое attention sink и почему он возникает в длинных контекстах?

    …Для борьбы используют **sliding window attention**, **attention|gated attention** и модификации нормализации. --- ## 1. Термин: Attention sink (сток внимания) [[Вики/sink…

  • answerКак вы храните историю диалога в RAG для multi-turn QA?

    …Решения: [[Вики/moving average\|sliding window]] (храним последние N сообщений), [[Вики/суммаризация таблицы\|summarization]] (сжимаем историю в [[Вики/суммаризация таблицы…

  • wikirolling cache

    # rolling cache ## Определение Техника для sliding window attention, позволяющая обрабатывать длинные контексты путем циклического буферизованного кэширования. ## Где встречается - [[647. Как…

  • answerКак вы реализуете KV cache для 1M токенов на 8x H100?

    …тензорный параллелизм (8-way) для шардирования кэша, INT4-квантование для сжатия в 4 раза, **sliding window** (окно 128k) для ограничения…

  • wikiBlock-sparse attention

    # Block-sparse attention ## Определение Вариант механизма внимания, использующий разреженные паттерны (например, sliding window или dilated attention) для уменьшения вычислительной сложности…

  • wikiKubernetes device plugin

    # Kubernetes device plugin ## Определение Плагин Kubernetes, управляющий доступом к специализированным устройствам (например, GPU), поддерживающий MIG, MPS и time-slicing, и…

  • answerКак работает attention с линейной сложностью (Linformer, Performer, Longformer)?

    …Сложность O(n·w). - [[Вики/dilated sliding window\|Dilated sliding window]]: как в [[Вики/CNN\|CNN]], [[Вики/Sliding window chunking…

  • wikiInfLLM

    …Также применяет sliding window и attention sink для оптимизации обработки больших последовательностей. ## Где встречается - [[283. Что такое selective attention в…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить rate limiting на сообщения между агентами

    …Определить тип [[Вики/rate limiting\|rate limiter]] — на основе алгоритма скользящего окна ([[Вики/moving average\|sliding window]]) или [[Вики/token…

  • answerКак вы управляете контекстным окном (context window) для длинных диалогов?

    …Основные подходы: **[[Вики/Sliding window chunking\|sliding window]]** (храним последние N токенов), **[[Вики/summarization\|summarization]]** (сжимаем историю в [[Вики/summarization…

  • wikiInfluxDB

    # InfluxDB ## Определение InfluxDB — база данных временных рядов (time-series), используемая для хранения метрик нагрузочного тестирования, SLI и результатов оценки RAG…

  • answerКак проектировать rate limiting на уровне сообщений?

    …за последнее [[Вики/Sliding window chunking\|окно]] времени (например, 1 секунда) подсчитывается количество сообщений; если превышен [[Вики/threshold\|порог]], сообщение…