Поиск

wikiKV-cache reuse
# KV-cache reuse ## Определение Техника ускорения инференса, при которой кэш ключей и значений предыдущих шагов сохраняется и переиспользуется для общих…
wikiKV-cache replication
# KV-cache replication ## Определение Синхронная репликация KV-кэша для обеспечения отказоустойчивости LLM-системы при сбоях. ## Где встречается - [[800+ вопросов|800…
wikiKV cache compression
# KV cache compression ## Определение Методы уменьшения размера кэша ключей и значений (GQA, MQA, квантование, обрезание) для снижения потребления памяти и…
answerКак speculative decoding взаимодействует с KV cache?
…две модели — два KV cache При использовании SD одновременно работают две модели, каждая со своим [[Вики/KV-cache\|KV cache…
wikiRelayCaching
…Как speculative decoding взаимодействует с KV cache|159. Как speculative decoding взаимодействует с KV cache]] - [[206. Что такое KV cache…
wikiKV cache explosion
# KV cache explosion ## Определение Проблема при работе с длинными контекстами, когда размер кэша внимания растёт квадратично от длины последовательности, вызывая…
wikiKV cache manager
# KV cache manager ## Определение Компонент TGI, управляющий кэшем ключей и значений для каждого запроса. ## Где встречается - [[218. Как работает continuous…
wikiKV cache fragmentation
# KV cache fragmentation ## Определение Фрагментация KV-кэша, возникающая при чередовании этапов prefill и decode, что снижает эффективность использования памяти. ## Где…
answerКак вы реализуете KV cache для 1M токенов на 8x H100?
…Что такое KV cache и почему он проблема для 1M токенов [[Вики/KV-cache\|KV cache]] — это [[Вики/key cache…
wikiRedis KV-cache
# Redis KV-cache ## Определение Простейшая форма кэширования в Redis: хранение пар ключ-значение. Используется для низколатентного кэширования ответов LLM. ## Где…
wikiSliding window cache
# Sliding window cache ## Определение Стратегия кэширования только последних N токенов в KV cache для экономии памяти в длинных диалогах. ## Где…
answerЧто такое KV cache reuse в multi-turn диалогах и как его реализовать?
…KV cache и его роль в трансформерах [[Вики/KV-cache\|KV cache]] — это структура данных, хранящая матрицы [[Вики/Key\|Key…
wiki8-bit quantization
…Почему KV cache растет линейно с длиной контекста и как это оптимизировать|433. Почему KV cache растет линейно с длиной…
wikiKV-cache compression
# KV-cache compression ## Определение Метод сжатия KV-кэша для уменьшения потребления памяти при инференсе LLM. ## Где встречается - [[441. EAGLE-3…
wikiStreamingLLM
…сохраняет начальные якорные токены и последнее окно, а остальные отбрасывает для сжатия KV cache. ## Где встречается - [[433. Почему KV cache…
answerКак работает L1/L2 cache hierarchy в A100/H100 и как ее использовать для LLM?
…Использование L2 для KV Cache [[Вики/KV-cache\|KV cache]] — это массив ключей и значений для каждого слоя. При генерации…
wikiSoftRoCE
# SoftRoCE ## Определение Программная эмуляция RDMA поверх Ethernet, используемая для тестирования KV cache при отсутствии физического InfiniBand. ## Где встречается - [[2. Написать…
wikiKV cache management
# KV cache management ## Определение Управление кэшем ключ-значение для поддержки нелинейных обновлений (например, при спекулятивном декодировании или откате rejected токенов…
wikiposix_memalign
# posix_memalign ## Определение Функция POSIX для выделения выровненной памяти, используемая для корректной регистрации буферов при RDMA-операциях с KV cache…
wikiKV-cache
# KV-cache ## Определение Кэш ключей и значений внимания в трансформерах, ускоряющий генерацию за счёт избежания пересчёта для уже обработанных токенов…
answerПочему KV cache растет линейно с длиной контекста и как это оптимизировать?
…KV cache (кэш ключей и значений) [[Вики/KV-cache\|KV cache]] – это структура данных, которая накапливает [[Вики/Query\|Key]] (K…
wikiprefix caching
…Что такое KV cache reuse в multi-turn диалогах и как его реализовать|206. Что такое KV cache reuse в…
wikiQueue Pair
…Написать RDMA-читалку для KV cache|2. Написать RDMA-читалку для KV cache]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
wikiRDMA Read
…Ключевая для эффективного доступа к удалённому KV cache. ## Где встречается - [[2. Написать RDMA-читалку для KV cache|2. Написать RDMA…
wikicache rollback
# cache rollback ## Определение Операция отката состояния KV-кэша при отклонении токенов в speculative decoding. Используется для восстановления согласованности кэша после…
answerКак устроен KV cache? Почему он bottleneck?
…Как устроен KV cache? Почему он bottleneck? ## Краткий тезис [[Вики/KV-cache\|KV cache]] — это механизм кэширования матриц ключей (K…
wikiRetention Rate
# Retention Rate ## Определение Доля токенов, сохраняемых в сжатом KV cache (например, 20%), для оптимизации памяти при работе с длинными контекстами…
wikiWork Request
…Написать RDMA-читалку для KV cache|2. Написать RDMA-читалку для KV cache]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
wikiRDMA
…Применяется для передачи KV cache в распределённых системах. ## Где встречается - [[Практика|Практика]] - [[2. Написать RDMA-читалку для KV cache|2…
wikitokens per second
…Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)]] - [[159. Как speculative decoding взаимодействует с KV cache|159…
answerЧто такое chunked prefill и зачем он нужен?
…token = model.decode(kv_cache) generated_tokens.append(token) kv_cache = model.update_cache(token, kv_cache) return generated_tokens…
answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?
…req = queue.pop(0) # Инициализируем KV cache для первого токена req.kv_cache = init_kv_cache(req.prompt) active.append…
wikiFlexGen
# FlexGen ## Определение Библиотека для offloading KV cache на CPU или диск, позволяющая обрабатывать длинные контексты при ограниченной памяти GPU. ## Где…
wikiSGLang
# SGLang ## Определение Фреймворк для инференса LLM с RadixAttention и продвинутым управлением KV cache, включая prefix caching между запросами от разных…
answerПочему decode stage плохо batchится?
…оптимизируют чтение/запись KV cache, частично скрывают latency памяти за счёт асинхронности и tiling. 4. [[Вики/KV cache compression\|KV…
answerКак работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)?
…для 70B модели с [[Вики/Grouped-Query Attention\|GQA]] (8 KV-голов) [[Вики/KV-cache\|KV cache]] уменьшается в 12…
answerЧто такое chunked prefill и зачем он нужен?
…Результат — [[Вики/KV-cache\|KV cache]] ([[Вики/Key\|ключи]] и [[Вики/Value\|значения]] для каждого слоя и каждого токена), который…
wikiH2O
# H2O ## Определение Метод сжатия KV cache, сохраняющий только токены с наибольшими оценками внимания для уменьшения потребления памяти. ## Где встречается - [[626…
wikiOffloading
# Offloading ## Определение Перемещение данных (весов, KV cache) из GPU в CPU или на диск при нехватке памяти, используется для инференса…
answerВ чем разница между prefill и decode stage в LLM инференсе?
…После [[Вики/Pre-fill\|prefill]] [[Вики/model\|модель]] уже имеет [[Вики/KV-cache\|KV cache]] для токенов промпта. При [[Вики…
answerЧто такое prefix caching и когда он эффективен?
…KV-кэш и prefix caching **[[Вики/KV-cache\|KV-кэш]] ([[Вики/KV-cache\|Key-Value cache]])** — это структура данных, которая…
wikiIn-place rollback
…Как speculative decoding взаимодействует с KV cache|159. Как speculative decoding взаимодействует с KV cache]] ## Навигация - [[00. Индекс терминов|Индекс…
wikiMulti-turn
…Как speculative decoding взаимодействует с KV cache|159. Как speculative decoding взаимодействует с KV cache]] - [[206. Что такое KV cache…
wikiSnapKV
…Как вы реализуете KV cache для 1M токенов на 8x H100|642. Как вы реализуете KV cache для 1M токенов…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать RDMA-читалку для KV cache
…Создайте тестовый [[Вики/KV-cache\|KV cache]] (1 GB): ```bash dd if=/dev/urandom of=kv_cache.bin bs=1M…
wikiMemory Overhead Ratio
…Как speculative decoding взаимодействует с KV cache|159. Как speculative decoding взаимодействует с KV cache]] - [[800+ вопросов|800+ вопросов]] ## Навигация…
wikiLazy invalidation
…Что такое KV cache reuse в multi-turn диалогах и как его реализовать|206. Что такое KV cache reuse в…
wikiHeavy Hitter
…Как вы реализуете KV cache для 1M токенов на 8x H100|642. Как вы реализуете KV cache для 1M токенов…
answerКак вы управляете memory fragmentation при длительном раннинге LLM сервера?
…Как KV cache усугубляет фрагментацию В стандартной реализации (например, [[Вики/Hugging Face\|Hugging Face Transformers]]) [[Вики/KV-cache\|KV cache…
wikiRolling Buffer Cache
# Rolling Buffer Cache ## Определение KV-кэш фиксированного размера, где старые пары вытесняются новыми, позволяя обрабатывать последовательности произвольной длины без роста…