Поиск
- wikidilated sliding window
# dilated sliding window ## Определение Разновидность разреженного внимания с шагом (dilation) между токенами окна, позволяющая увеличить рецептивное поле без роста размера…
- answerКак работает sliding window attention в Mistral и Longformer?
…Идея sliding window attention [[Вики/Sliding window chunking\|Sliding window attention]] (также known as [[Вики/Sliding window chunking\|local attention…
- wikiSliding window cache
# Sliding window cache ## Определение Стратегия кэширования только последних N токенов в KV cache для экономии памяти в длинных диалогах. ## Где…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать SLO для faithfulness
…Вы настроите измерение [[Вики/No hallucination\|faithfulness]] (фактологической верности) с помощью [[Вики/RAGAS\|RAGAS]], рассчитаете [[Вики/SLI\|SLI]] ([[Вики/SLI…
- wikiSliding window chunking
…Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…
- wikiLongformer
# Longformer ## Определение Модель-трансформер с разреженным вниманием, комбинирующая sliding window attention и глобальные токены для эффективной обработки длинных документов. ## Где…
- wikireceptive field
# receptive field ## Определение Максимальная дистанция, на которую токен может влиять через цепочку слоёв; в моделях со sliding window attention растёт…
- wikifull attention
…Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…
- answerЧто такое sliding window attention и зачем он в Mistral?
…Что такое sliding window attention и зачем он в Mistral? ## Краткий тезис **[[Вики/Longformer\|Sliding window attention]] ([[Вики/Sliding window…
- wikiTask Completion Rate
…Используется как Service Level Indicator (SLI) для оценки производительности агентных систем в продакшене. ## Где встречается - [[388. Что такое SLI (Service…
- wikiTemporal partitioning
# Temporal partitioning ## Определение Программное разделение GPU по времени, при котором драйвер переключает контексты между задачами с квантами времени, используется для…
- wikiglobal attention
…Используется в Longformer в комбинации со sliding window attention. ## Где встречается - [[629. Как работает sliding window attention в Mistral и…
- wikiStep Latency
…Что такое SLI (Service Level Indicators) для AI системы и как их собирать|388. Что такое SLI (Service Level Indicators…
- wikiTool Success Rate
…Что такое SLI (Service Level Indicators) для AI системы и как их собирать|388. Что такое SLI (Service Level Indicators…
- wikiRolling Buffer Cache
…Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…
- wikiGlobal + Local Attention
…Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…
- answerЧто такое SLI (Service Level Indicators) для AI системы и как их собирать?
…Что такое SLI (Service Level Indicators) для AI системы и как их собирать? ## Краткий тезис **[[Вики/SLA\|SLI]] ([[Вики/SLI…
- wikiSLI
# SLI ## Определение Измеряемые метрики (latency, faithfulness, availability) уровня обслуживания, используемые для мониторинга выполнения SLO и SLA. ## Где встречается - [[381. Как…
- wikip95
…Что такое SLI (Service Level Indicators) для AI системы и как их собирать|388. Что такое SLI (Service Level Indicators…
- wikiMistral
# Mistral ## Определение Семейство языковых моделей, использующих RMSNorm вместо LayerNorm и sliding window attention с окном 4096 токенов для эффективной обработки…
- wikiPre-fill
…Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…
- answerКак вы определяете SLO и SLA для LLM сервиса?
…SLO, SLA, SLI, Error Budget **[[Вики/SLA\|SLI]] ([[Вики/SLI\|Service Level Indicator]])** — измеряемая метрика, отражающая текущее [[Вики/state\|состояние…
- wikiGrouped-Query Attention
…Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…
- wikisparse attention
…Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…
- answerЧто такое error budget для AI качества и как его считать?
…SLO, SLI, error budget **[[Вики/SLO\|SLO]] ([[Вики/SLO\|Service Level Objective]])** — целевой показатель качества сервиса, выраженный в процентах или…
- wikiPII leakage
…Что такое SLI (Service Level Indicators) для AI системы и как их собирать|388. Что такое SLI (Service Level Indicators…
- wikilinear complexity
…Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…
- wikitoxic content
…Что такое SLI (Service Level Indicators) для AI системы и как их собирать|388. Что такое SLI (Service Level Indicators…
- wikimoving average
# moving average ## Определение Скользящее среднее (moving average) — метод сглаживания временных рядов, при котором значение в каждой точке заменяется средним за…
- answerКак вы детектируете и фиксите attention sinks в длинных контекстах?
…Sliding window attention (SWA) [[Вики/Sliding window chunking\|Sliding window attention]] ограничивает область внимания каждого токена фиксированным окном (например, 1024…
- answerКак вы делаете длинный контекст для RAG (100k+ токенов в контексте)?
…Sliding window attention [[Вики/Sliding window chunking\|Sliding window attention]] — механизм, при котором каждый [[Вики/token\|токен]] «видит» только [[Вики…
- wikiкраткосрочная память
# краткосрочная память ## Определение Компонент памяти агента, хранящий последние N сообщений или переменные текущей сессии (например, в Redis с TTL). Обычно…
- answerКак работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)?
…Sliding Window Attention (Mistral, Longformer) [[Вики/Sliding window chunking\|Sliding window attention]] ограничивает область внимания каждого токена окном фиксированного размера…
- wikiBigBird
…Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…
- wikiTime window
# Time window ## Определение Период (например, количество запросов или интервал времени) для вычисления скользящих средних метрик SLI. ## Где встречается - [[26. Реализовать…
- wikiLLM с памятью
# LLM с памятью ## Определение Архитектурный подход, в котором LLM хранит историю предыдущих кадров (sliding window) для сохранения контекста при анализе…
- wikiAnswer quality
…Что такое SLI (Service Level Indicators) для AI системы и как их собирать|388. Что такое SLI (Service Level Indicators…
- answerЧто такое rate limiting на разных уровнях (user, API key, IP, global) и как реализовать?
…self.redis = redis_client def check_sliding_window(self, key: str, limit: int, window: int = 60) -> bool: """Sliding window counter…
- answerЧто такое attention sink и почему он возникает в длинных контекстах?
…Для борьбы используют **sliding window attention**, **attention|gated attention** и модификации нормализации. --- ## 1. Термин: Attention sink (сток внимания) [[Вики/sink…
- answerКак вы храните историю диалога в RAG для multi-turn QA?
…Решения: [[Вики/moving average\|sliding window]] (храним последние N сообщений), [[Вики/суммаризация таблицы\|summarization]] (сжимаем историю в [[Вики/суммаризация таблицы…
- wikirolling cache
# rolling cache ## Определение Техника для sliding window attention, позволяющая обрабатывать длинные контексты путем циклического буферизованного кэширования. ## Где встречается - [[647. Как…
- answerКак вы реализуете KV cache для 1M токенов на 8x H100?
…тензорный параллелизм (8-way) для шардирования кэша, INT4-квантование для сжатия в 4 раза, **sliding window** (окно 128k) для ограничения…
- wikiBlock-sparse attention
# Block-sparse attention ## Определение Вариант механизма внимания, использующий разреженные паттерны (например, sliding window или dilated attention) для уменьшения вычислительной сложности…
- wikiKubernetes device plugin
# Kubernetes device plugin ## Определение Плагин Kubernetes, управляющий доступом к специализированным устройствам (например, GPU), поддерживающий MIG, MPS и time-slicing, и…
- answerКак работает attention с линейной сложностью (Linformer, Performer, Longformer)?
…Сложность O(n·w). - [[Вики/dilated sliding window\|Dilated sliding window]]: как в [[Вики/CNN\|CNN]], [[Вики/Sliding window chunking…
- wikiInfLLM
…Также применяет sliding window и attention sink для оптимизации обработки больших последовательностей. ## Где встречается - [[283. Что такое selective attention в…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить rate limiting на сообщения между агентами
…Определить тип [[Вики/rate limiting\|rate limiter]] — на основе алгоритма скользящего окна ([[Вики/moving average\|sliding window]]) или [[Вики/token…
- answerКак вы управляете контекстным окном (context window) для длинных диалогов?
…Основные подходы: **[[Вики/Sliding window chunking\|sliding window]]** (храним последние N токенов), **[[Вики/summarization\|summarization]]** (сжимаем историю в [[Вики/summarization…
- wikiInfluxDB
# InfluxDB ## Определение InfluxDB — база данных временных рядов (time-series), используемая для хранения метрик нагрузочного тестирования, SLI и результатов оценки RAG…
- answerКак проектировать rate limiting на уровне сообщений?
…за последнее [[Вики/Sliding window chunking\|окно]] времени (например, 1 секунда) подсчитывается количество сообщений; если превышен [[Вики/threshold\|порог]], сообщение…