Поиск

  • wikiversioned cache

    # versioned cache ## Определение Кэш, где каждый ответ хранит версию документа или знаний, что позволяет точно инвалидировать устаревшие записи при обновлении…

  • wikicache invalidation

    …Как вы делаете cache invalidation для semantic cache при обновлении знаний|245. Как вы делаете cache invalidation для semantic cache

  • wikiCache-Aside

    …Реализовать cache stampede защиту|35. Реализовать cache stampede защиту]] - [[38. Настроить TTL для semantic cache|38. Настроить TTL для semantic…

  • wikicached response

    # cached response ## Определение Ответ, возвращаемый из кэша при совпадении запроса (cache hit) или его отсутствие (cache miss). Применяется для ускорения…

  • wikiKV-cache reuse

    # KV-cache reuse ## Определение Техника ускорения инференса, при которой кэш ключей и значений предыдущих шагов сохраняется и переиспользуется для общих…

  • wikiExact-Match Cache

    # Exact-Match Cache ## Определение Кэш, где ключом является точный текст запроса. ## Где встречается - [[412. Как вы делаете cache invalidation для…

  • wikiwrite-through cache

    # write-through cache ## Определение Паттерн кэширования, при котором каждое изменение данных синхронно записывается и в кэш, и в основное хранилище…

  • wikicache invalidation strategies

    …Написать postmortem для cache stampede|99. Написать postmortem для cache stampede]] - [[258. Настроить write-through cache|258. Настроить write-through…

  • wikiIn-memory cache

    # In-memory cache ## Определение Кэш, хранящий данные в оперативной памяти для быстрого доступа; используется в прототипах или при малой нагрузке…

  • wikiSemantic Caching

    …Как вы делаете cache invalidation для semantic cache при обновлении знаний|245. Как вы делаете cache invalidation для semantic cache

  • wikiSharded cache

    # Sharded cache ## Определение Распределённый кэш, разделённый на шарды, каждый из которых обрабатывается отдельной нодой. Для равномерного распределения данных используется consistent…

  • wikiKV cache compression

    # KV cache compression ## Определение Методы уменьшения размера кэша ключей и значений (GQA, MQA, квантование, обрезание) для снижения потребления памяти и…

  • wikiSliding window cache

    # Sliding window cache ## Определение Стратегия кэширования только последних N токенов в KV cache для экономии памяти в длинных диалогах. ## Где…

  • wikiKV-cache replication

    # KV-cache replication ## Определение Синхронная репликация KV-кэша для обеспечения отказоустойчивости LLM-системы при сбоях. ## Где встречается - [[800+ вопросов|800…

  • wikiCacheInterface

    …Semantic cache для RAG|225. Semantic cache для RAG]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikiThundering Herd

    …Реализовать cache stampede защиту|35. Реализовать cache stampede защиту]] - [[99. Написать postmortem для cache stampede|99. Написать postmortem для cache

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить prompt caching (Anthropic style)

    …отправляйте [[Вики/Prompt engineering\|запрос]] с `[[Вики/cache_control\|cache_control]]` у префикса (создаст [[Вики/cache entry\|cache entry]]). Зафиксируйте…

  • wikicache rollback

    # cache rollback ## Определение Операция отката состояния KV-кэша при отклонении токенов в speculative decoding. Используется для восстановления согласованности кэша после…

  • wikipage cache

    # page cache ## Определение Кэш страниц диска в оперативной памяти, управляемый операционной системой, значительно ускоряющий повторный доступ к данным. ## Где встречается…

  • wikicache eviction policies

    …Настроить write-through cache|258. Настроить write-through cache]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikiCache-Control

    …Реализовать cache invalidation|257. Реализовать cache invalidation]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов]] - [[Оглавление|Оглавление]]

  • wikiCache stampede

    # Cache stampede ## Определение Проблема множества одновременных запросов к источнику данных при перестроении кэша, что может привести к перегрузке БД. Требует…

  • wikiCache misses

    …Измеряются с помощью профилировщиков (perf stat -e cache-misses). ## Где встречается - [[222. Что такое IVF (Inverted File Index) и как…

  • answerЧто такое KV cache reuse в multi-turn диалогах и как его реализовать?

    …k_cache, v_cache = compute_fn(prefix_tokens) self.cache[session_id] = (k_cache, v_cache) return k_cache, v…

  • wikiLazy invalidation

    …Как вы делаете cache invalidation для semantic cache при обновлении знаний|245. Как вы делаете cache invalidation для semantic cache

  • wikiwrite-behind

    …Реализовать cache invalidation|257. Реализовать cache invalidation]] - [[258. Настроить write-through cache|258. Настроить write-through cache]] ## Навигация - [[00. Индекс…

  • wikilru_cache

    # lru_cache ## Определение Декоратор из модуля functools в Python, кэширующий результаты выполнения функции с политикой LRU. Позволяет сократить время выполнения…

  • answerКак работает L1/L2 cache hierarchy в A100/H100 и как ее использовать для LLM?

    …Использование L2 для KV Cache [[Вики/KV-cache\|KV cache]] — это массив ключей и значений для каждого слоя. При генерации…

  • answerКак speculative decoding взаимодействует с KV cache?

    …две модели — два KV cache При использовании SD одновременно работают две модели, каждая со своим [[Вики/KV-cache\|KV cache

  • wikiCache hit ratio

    …Реализовать write-through cache для RAG|33. Реализовать write-through cache для RAG]] - [[38. Настроить TTL для semantic cache|38…

  • wikiRedis Lock

    …Реализовать cache stampede защиту|35. Реализовать cache stampede защиту]] - [[99. Написать postmortem для cache stampede|99. Написать postmortem для cache

  • wikiHashing

    …Как вы делаете cache invalidation для semantic cache при обновлении знаний|412. Как вы делаете cache invalidation для semantic cache

  • wikievent-driven invalidation

    …Как вы делаете cache invalidation для semantic cache при обновлении знаний|245. Как вы делаете cache invalidation для semantic cache

  • wikicache_key

    # cache_key ## Определение Идентификатор, передаваемый провайдеру для доступа к сохранённому KV-кэшу общего префикса. Используется для повторного использования кэшированного контекста…

  • wikiCache Systems

    # Cache Systems ## Определение Категория реализаций кэширования, включающая такие структуры, как фильтры Блума. Используется для ускорения retrieval и снижения нагрузки на…

  • wikicache warming

    # cache warming ## Определение Процесс предварительной загрузки кэша популярными данными после деплоя. Позволяет быстро достичь высокого hit rate и избежать простоев…

  • wikiRelayCaching

    …Как speculative decoding взаимодействует с KV cache|159. Как speculative decoding взаимодействует с KV cache]] - [[206. Что такое KV cache

  • wikiCache stability

    # Cache stability ## Определение Стабильность кэша для общих префиксов, влияющая на эффективность контекстного инжиниринга. Чем выше стабильность, тем чаще могут быть…

  • wikiRedis KV-cache

    # Redis KV-cache ## Определение Простейшая форма кэширования в Redis: хранение пар ключ-значение. Используется для низколатентного кэширования ответов LLM. ## Где…

  • wikistale data

    …Реализовать write-through cache для RAG|33. Реализовать write-through cache для RAG]] - [[257. Реализовать cache invalidation|257. Реализовать cache

  • wikiGemini API cache

    # Gemini API cache ## Определение Реализация prompt caching от Google через Gemini API, позволяющая кэшировать префиксы запросов для ускорения повторных обращений…

  • wikiKV cache explosion

    # KV cache explosion ## Определение Проблема при работе с длинными контекстами, когда размер кэша внимания растёт квадратично от длины последовательности, вызывая…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать semantic cache для LLM

    …Реализовать функцию `cached_llm(prompt, cache)`: ```python def cached_llm(prompt, cache): cached = cache.get_cached_response(prompt) if cached

  • wikiL2 Cache

    # L2 Cache ## Определение Кэш второго уровня, общий между SM GPU, служащий буфером между SM и глобальной памятью; ключевая оптимизация для…

  • wikieager invalidation

    …Как вы делаете cache invalidation для semantic cache при обновлении знаний|245. Как вы делаете cache invalidation для semantic cache

  • wikiWrite-through

    …Реализовать cache stampede защиту|35. Реализовать cache stampede защиту]] - [[257. Реализовать cache invalidation|257. Реализовать cache invalidation]] ## Навигация - [[00. Индекс…

  • wikiKnowledge Version

    …Как вы делаете cache invalidation для semantic cache при обновлении знаний|412. Как вы делаете cache invalidation для semantic cache

  • wikiKV cache manager

    # KV cache manager ## Определение Компонент TGI, управляющий кэшем ключей и значений для каждого запроса. ## Где встречается - [[218. Как работает continuous…

  • wikicontent hash

    …Как вы делаете cache invalidation для semantic cache при обновлении знаний|245. Как вы делаете cache invalidation для semantic cache

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить TTL для semantic cache

    …Разверните минимальный [[Вики/semantic cache\|semantic cache]] на базе [[Вики/Faiss\|Qdrant]] (или простого [[Вики/In-memory cache\|in-memory…