Поиск

wikiversioned cache
# versioned cache ## Определение Кэш, где каждый ответ хранит версию документа или знаний, что позволяет точно инвалидировать устаревшие записи при обновлении…
wikicache invalidation
…Как вы делаете cache invalidation для semantic cache при обновлении знаний|245. Как вы делаете cache invalidation для semantic cache…
wikiCache-Aside
…Реализовать cache stampede защиту|35. Реализовать cache stampede защиту]] - [[38. Настроить TTL для semantic cache|38. Настроить TTL для semantic…
wikicached response
# cached response ## Определение Ответ, возвращаемый из кэша при совпадении запроса (cache hit) или его отсутствие (cache miss). Применяется для ускорения…
wikiKV-cache reuse
# KV-cache reuse ## Определение Техника ускорения инференса, при которой кэш ключей и значений предыдущих шагов сохраняется и переиспользуется для общих…
wikiExact-Match Cache
# Exact-Match Cache ## Определение Кэш, где ключом является точный текст запроса. ## Где встречается - [[412. Как вы делаете cache invalidation для…
wikiwrite-through cache
# write-through cache ## Определение Паттерн кэширования, при котором каждое изменение данных синхронно записывается и в кэш, и в основное хранилище…
wikicache invalidation strategies
…Написать postmortem для cache stampede|99. Написать postmortem для cache stampede]] - [[258. Настроить write-through cache|258. Настроить write-through…
wikiIn-memory cache
# In-memory cache ## Определение Кэш, хранящий данные в оперативной памяти для быстрого доступа; используется в прототипах или при малой нагрузке…
wikiSemantic Caching
…Как вы делаете cache invalidation для semantic cache при обновлении знаний|245. Как вы делаете cache invalidation для semantic cache…
wikiSharded cache
# Sharded cache ## Определение Распределённый кэш, разделённый на шарды, каждый из которых обрабатывается отдельной нодой. Для равномерного распределения данных используется consistent…
wikiKV cache compression
# KV cache compression ## Определение Методы уменьшения размера кэша ключей и значений (GQA, MQA, квантование, обрезание) для снижения потребления памяти и…
wikiSliding window cache
# Sliding window cache ## Определение Стратегия кэширования только последних N токенов в KV cache для экономии памяти в длинных диалогах. ## Где…
wikiKV-cache replication
# KV-cache replication ## Определение Синхронная репликация KV-кэша для обеспечения отказоустойчивости LLM-системы при сбоях. ## Где встречается - [[800+ вопросов|800…
wikiCacheInterface
…Semantic cache для RAG|225. Semantic cache для RAG]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
wikiThundering Herd
…Реализовать cache stampede защиту|35. Реализовать cache stampede защиту]] - [[99. Написать postmortem для cache stampede|99. Написать postmortem для cache…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить prompt caching (Anthropic style)
…отправляйте [[Вики/Prompt engineering\|запрос]] с `[[Вики/cache_control\|cache_control]]` у префикса (создаст [[Вики/cache entry\|cache entry]]). Зафиксируйте…
wikicache rollback
# cache rollback ## Определение Операция отката состояния KV-кэша при отклонении токенов в speculative decoding. Используется для восстановления согласованности кэша после…
wikipage cache
# page cache ## Определение Кэш страниц диска в оперативной памяти, управляемый операционной системой, значительно ускоряющий повторный доступ к данным. ## Где встречается…
wikicache eviction policies
…Настроить write-through cache|258. Настроить write-through cache]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
wikiCache-Control
…Реализовать cache invalidation|257. Реализовать cache invalidation]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов]] - [[Оглавление|Оглавление]]
wikiCache stampede
# Cache stampede ## Определение Проблема множества одновременных запросов к источнику данных при перестроении кэша, что может привести к перегрузке БД. Требует…
wikiCache misses
…Измеряются с помощью профилировщиков (perf stat -e cache-misses). ## Где встречается - [[222. Что такое IVF (Inverted File Index) и как…
answerЧто такое KV cache reuse в multi-turn диалогах и как его реализовать?
…k_cache, v_cache = compute_fn(prefix_tokens) self.cache[session_id] = (k_cache, v_cache) return k_cache, v…
wikiLazy invalidation
…Как вы делаете cache invalidation для semantic cache при обновлении знаний|245. Как вы делаете cache invalidation для semantic cache…
wikiwrite-behind
…Реализовать cache invalidation|257. Реализовать cache invalidation]] - [[258. Настроить write-through cache|258. Настроить write-through cache]] ## Навигация - [[00. Индекс…
wikilru_cache
# lru_cache ## Определение Декоратор из модуля functools в Python, кэширующий результаты выполнения функции с политикой LRU. Позволяет сократить время выполнения…
answerКак работает L1/L2 cache hierarchy в A100/H100 и как ее использовать для LLM?
…Использование L2 для KV Cache [[Вики/KV-cache\|KV cache]] — это массив ключей и значений для каждого слоя. При генерации…
answerКак speculative decoding взаимодействует с KV cache?
…две модели — два KV cache При использовании SD одновременно работают две модели, каждая со своим [[Вики/KV-cache\|KV cache…
wikiCache hit ratio
…Реализовать write-through cache для RAG|33. Реализовать write-through cache для RAG]] - [[38. Настроить TTL для semantic cache|38…
wikiRedis Lock
…Реализовать cache stampede защиту|35. Реализовать cache stampede защиту]] - [[99. Написать postmortem для cache stampede|99. Написать postmortem для cache…
wikiHashing
…Как вы делаете cache invalidation для semantic cache при обновлении знаний|412. Как вы делаете cache invalidation для semantic cache…
wikievent-driven invalidation
…Как вы делаете cache invalidation для semantic cache при обновлении знаний|245. Как вы делаете cache invalidation для semantic cache…
wikicache_key
# cache_key ## Определение Идентификатор, передаваемый провайдеру для доступа к сохранённому KV-кэшу общего префикса. Используется для повторного использования кэшированного контекста…
wikiCache Systems
# Cache Systems ## Определение Категория реализаций кэширования, включающая такие структуры, как фильтры Блума. Используется для ускорения retrieval и снижения нагрузки на…
wikicache warming
# cache warming ## Определение Процесс предварительной загрузки кэша популярными данными после деплоя. Позволяет быстро достичь высокого hit rate и избежать простоев…
wikiRelayCaching
…Как speculative decoding взаимодействует с KV cache|159. Как speculative decoding взаимодействует с KV cache]] - [[206. Что такое KV cache…
wikiCache stability
# Cache stability ## Определение Стабильность кэша для общих префиксов, влияющая на эффективность контекстного инжиниринга. Чем выше стабильность, тем чаще могут быть…
wikiRedis KV-cache
# Redis KV-cache ## Определение Простейшая форма кэширования в Redis: хранение пар ключ-значение. Используется для низколатентного кэширования ответов LLM. ## Где…
wikistale data
…Реализовать write-through cache для RAG|33. Реализовать write-through cache для RAG]] - [[257. Реализовать cache invalidation|257. Реализовать cache…
wikiGemini API cache
# Gemini API cache ## Определение Реализация prompt caching от Google через Gemini API, позволяющая кэшировать префиксы запросов для ускорения повторных обращений…
wikiKV cache explosion
# KV cache explosion ## Определение Проблема при работе с длинными контекстами, когда размер кэша внимания растёт квадратично от длины последовательности, вызывая…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать semantic cache для LLM
…Реализовать функцию `cached_llm(prompt, cache)`: ```python def cached_llm(prompt, cache): cached = cache.get_cached_response(prompt) if cached…
wikiL2 Cache
# L2 Cache ## Определение Кэш второго уровня, общий между SM GPU, служащий буфером между SM и глобальной памятью; ключевая оптимизация для…
wikieager invalidation
…Как вы делаете cache invalidation для semantic cache при обновлении знаний|245. Как вы делаете cache invalidation для semantic cache…
wikiWrite-through
…Реализовать cache stampede защиту|35. Реализовать cache stampede защиту]] - [[257. Реализовать cache invalidation|257. Реализовать cache invalidation]] ## Навигация - [[00. Индекс…
wikiKnowledge Version
…Как вы делаете cache invalidation для semantic cache при обновлении знаний|412. Как вы делаете cache invalidation для semantic cache…
wikiKV cache manager
# KV cache manager ## Определение Компонент TGI, управляющий кэшем ключей и значений для каждого запроса. ## Где встречается - [[218. Как работает continuous…
wikicontent hash
…Как вы делаете cache invalidation для semantic cache при обновлении знаний|245. Как вы делаете cache invalidation для semantic cache…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить TTL для semantic cache
…Разверните минимальный [[Вики/semantic cache\|semantic cache]] на базе [[Вики/Faiss\|Qdrant]] (или простого [[Вики/In-memory cache\|in-memory…