Поиск

  • wikiKV-cache reuse

    # KV-cache reuse ## Определение Техника ускорения инференса, при которой кэш ключей и значений предыдущих шагов сохраняется и переиспользуется для общих…

  • wikiKV-cache replication

    # KV-cache replication ## Определение Синхронная репликация KV-кэша для обеспечения отказоустойчивости LLM-системы при сбоях. ## Где встречается - [[800+ вопросов|800…

  • wikiKV cache compression

    # KV cache compression ## Определение Методы уменьшения размера кэша ключей и значений (GQA, MQA, квантование, обрезание) для снижения потребления памяти и…

  • answerКак speculative decoding взаимодействует с KV cache?

    …две модели — два KV cache При использовании SD одновременно работают две модели, каждая со своим [[Вики/KV-cache\|KV cache

  • wikiRelayCaching

    …Как speculative decoding взаимодействует с KV cache|159. Как speculative decoding взаимодействует с KV cache]] - [[206. Что такое KV cache

  • wikiKV cache explosion

    # KV cache explosion ## Определение Проблема при работе с длинными контекстами, когда размер кэша внимания растёт квадратично от длины последовательности, вызывая…

  • wikiKV cache manager

    # KV cache manager ## Определение Компонент TGI, управляющий кэшем ключей и значений для каждого запроса. ## Где встречается - [[218. Как работает continuous…

  • wikiKV cache fragmentation

    # KV cache fragmentation ## Определение Фрагментация KV-кэша, возникающая при чередовании этапов prefill и decode, что снижает эффективность использования памяти. ## Где…

  • answerКак вы реализуете KV cache для 1M токенов на 8x H100?

    …Что такое KV cache и почему он проблема для 1M токенов [[Вики/KV-cache\|KV cache]] — это [[Вики/key cache

  • wikiRedis KV-cache

    # Redis KV-cache ## Определение Простейшая форма кэширования в Redis: хранение пар ключ-значение. Используется для низколатентного кэширования ответов LLM. ## Где…

  • wikiSliding window cache

    # Sliding window cache ## Определение Стратегия кэширования только последних N токенов в KV cache для экономии памяти в длинных диалогах. ## Где…

  • answerЧто такое KV cache reuse в multi-turn диалогах и как его реализовать?

    KV cache и его роль в трансформерах [[Вики/KV-cache\|KV cache]] — это структура данных, хранящая матрицы [[Вики/Key\|Key…

  • wiki8-bit quantization

    …Почему KV cache растет линейно с длиной контекста и как это оптимизировать|433. Почему KV cache растет линейно с длиной…

  • wikiKV-cache compression

    # KV-cache compression ## Определение Метод сжатия KV-кэша для уменьшения потребления памяти при инференсе LLM. ## Где встречается - [[441. EAGLE-3…

  • wikiStreamingLLM

    …сохраняет начальные якорные токены и последнее окно, а остальные отбрасывает для сжатия KV cache. ## Где встречается - [[433. Почему KV cache

  • answerКак работает L1/L2 cache hierarchy в A100/H100 и как ее использовать для LLM?

    …Использование L2 для KV Cache [[Вики/KV-cache\|KV cache]] — это массив ключей и значений для каждого слоя. При генерации…

  • wikiSoftRoCE

    # SoftRoCE ## Определение Программная эмуляция RDMA поверх Ethernet, используемая для тестирования KV cache при отсутствии физического InfiniBand. ## Где встречается - [[2. Написать…

  • wikiKV cache management

    # KV cache management ## Определение Управление кэшем ключ-значение для поддержки нелинейных обновлений (например, при спекулятивном декодировании или откате rejected токенов…

  • wikiposix_memalign

    # posix_memalign ## Определение Функция POSIX для выделения выровненной памяти, используемая для корректной регистрации буферов при RDMA-операциях с KV cache

  • wikiKV-cache

    # KV-cache ## Определение Кэш ключей и значений внимания в трансформерах, ускоряющий генерацию за счёт избежания пересчёта для уже обработанных токенов…

  • answerПочему KV cache растет линейно с длиной контекста и как это оптимизировать?

    KV cache (кэш ключей и значений) [[Вики/KV-cache\|KV cache]] – это структура данных, которая накапливает [[Вики/Query\|Key]] (K…

  • wikiprefix caching

    …Что такое KV cache reuse в multi-turn диалогах и как его реализовать|206. Что такое KV cache reuse в…

  • wikiQueue Pair

    …Написать RDMA-читалку для KV cache|2. Написать RDMA-читалку для KV cache]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiRDMA Read

    …Ключевая для эффективного доступа к удалённому KV cache. ## Где встречается - [[2. Написать RDMA-читалку для KV cache|2. Написать RDMA…

  • wikicache rollback

    # cache rollback ## Определение Операция отката состояния KV-кэша при отклонении токенов в speculative decoding. Используется для восстановления согласованности кэша после…

  • answerКак устроен KV cache? Почему он bottleneck?

    …Как устроен KV cache? Почему он bottleneck? ## Краткий тезис [[Вики/KV-cache\|KV cache]] — это механизм кэширования матриц ключей (K…

  • wikiRetention Rate

    # Retention Rate ## Определение Доля токенов, сохраняемых в сжатом KV cache (например, 20%), для оптимизации памяти при работе с длинными контекстами…

  • wikiWork Request

    …Написать RDMA-читалку для KV cache|2. Написать RDMA-читалку для KV cache]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiRDMA

    …Применяется для передачи KV cache в распределённых системах. ## Где встречается - [[Практика|Практика]] - [[2. Написать RDMA-читалку для KV cache|2…

  • wikitokens per second

    …Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)]] - [[159. Как speculative decoding взаимодействует с KV cache|159…

  • answerЧто такое chunked prefill и зачем он нужен?

    …token = model.decode(kv_cache) generated_tokens.append(token) kv_cache = model.update_cache(token, kv_cache) return generated_tokens…

  • answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?

    …req = queue.pop(0) # Инициализируем KV cache для первого токена req.kv_cache = init_kv_cache(req.prompt) active.append…

  • wikiFlexGen

    # FlexGen ## Определение Библиотека для offloading KV cache на CPU или диск, позволяющая обрабатывать длинные контексты при ограниченной памяти GPU. ## Где…

  • wikiSGLang

    # SGLang ## Определение Фреймворк для инференса LLM с RadixAttention и продвинутым управлением KV cache, включая prefix caching между запросами от разных…

  • answerПочему decode stage плохо batchится?

    …оптимизируют чтение/запись KV cache, частично скрывают latency памяти за счёт асинхронности и tiling. 4. [[Вики/KV cache compression\|KV

  • answerКак работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)?

    …для 70B модели с [[Вики/Grouped-Query Attention\|GQA]] (8 KV-голов) [[Вики/KV-cache\|KV cache]] уменьшается в 12…

  • answerЧто такое chunked prefill и зачем он нужен?

    …Результат — [[Вики/KV-cache\|KV cache]] ([[Вики/Key\|ключи]] и [[Вики/Value\|значения]] для каждого слоя и каждого токена), который…

  • wikiH2O

    # H2O ## Определение Метод сжатия KV cache, сохраняющий только токены с наибольшими оценками внимания для уменьшения потребления памяти. ## Где встречается - [[626…

  • wikiOffloading

    # Offloading ## Определение Перемещение данных (весов, KV cache) из GPU в CPU или на диск при нехватке памяти, используется для инференса…

  • answerВ чем разница между prefill и decode stage в LLM инференсе?

    …После [[Вики/Pre-fill\|prefill]] [[Вики/model\|модель]] уже имеет [[Вики/KV-cache\|KV cache]] для токенов промпта. При [[Вики…

  • answerЧто такое prefix caching и когда он эффективен?

    KV-кэш и prefix caching **[[Вики/KV-cache\|KV-кэш]] ([[Вики/KV-cache\|Key-Value cache]])** — это структура данных, которая…

  • wikiIn-place rollback

    …Как speculative decoding взаимодействует с KV cache|159. Как speculative decoding взаимодействует с KV cache]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiMulti-turn

    …Как speculative decoding взаимодействует с KV cache|159. Как speculative decoding взаимодействует с KV cache]] - [[206. Что такое KV cache

  • wikiSnapKV

    …Как вы реализуете KV cache для 1M токенов на 8x H100|642. Как вы реализуете KV cache для 1M токенов…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать RDMA-читалку для KV cache

    …Создайте тестовый [[Вики/KV-cache\|KV cache]] (1 GB): ```bash dd if=/dev/urandom of=kv_cache.bin bs=1M…

  • wikiMemory Overhead Ratio

    …Как speculative decoding взаимодействует с KV cache|159. Как speculative decoding взаимодействует с KV cache]] - [[800+ вопросов|800+ вопросов]] ## Навигация…

  • wikiLazy invalidation

    …Что такое KV cache reuse в multi-turn диалогах и как его реализовать|206. Что такое KV cache reuse в…

  • wikiHeavy Hitter

    …Как вы реализуете KV cache для 1M токенов на 8x H100|642. Как вы реализуете KV cache для 1M токенов…

  • answerКак вы управляете memory fragmentation при длительном раннинге LLM сервера?

    …Как KV cache усугубляет фрагментацию В стандартной реализации (например, [[Вики/Hugging Face\|Hugging Face Transformers]]) [[Вики/KV-cache\|KV cache

  • wikiRolling Buffer Cache

    # Rolling Buffer Cache ## Определение KV-кэш фиксированного размера, где старые пары вытесняются новыми, позволяя обрабатывать последовательности произвольной длины без роста…