Как работает paged attention? (детально)

Q: 1. Проблема: фрагментация KV-кэша в традиционных подходах

При авторегрессивной генерации каждый новый [[Вики/token usage\|токен]] требует доступа к KV-кэшу всех предыдущих токенов. Для каждого слоя модели и каждой [[Вики/Attention heads\|головы внимания]] хранятся два вектора: **[[Вики/Query\|Key]] (K)** и **[[Вики/Query\|Value]] (V)**. При пакетной обработке [[Вики/Query\|запросы]] имеют разную длину — как входную, так и генерируемую. Если выделять непрерывную [[Вики/Memory\|память]] под каждый [[Вики/промпт агента\|запрос]] (например, по максимуму ко

Q: 2. Основная идея PagedAttention

Основные компоненты: - [[Вики/Logical KV-blocks\|Логические блоки]] — виртуальные [[Вики/Slots\|слоты]] для каждого запроса (например, 1-й логический [[Вики/блок фиксированного размера\|блок]] включает [[Вики/токены\|токены]] 0..15, 2-й — 16..31 и т.д.). - **[[Вики/Physical KV-blocks\|Физические блоки]]** — реальные участки памяти фиксированного размера. Количество физических блоков ограничено доступной памятью (например, на [[Вики/GPU\|GPU]]).

Q: 3.1 Физические блоки

Каждый физический [[Вики/блок фиксированного размера\|блок]] хранит **[[Вики/KV-cache\|KV-кэш]] для всех слоёв и всех голов внимания** для набора токенов, попадающих в этот [[Вики/блок фиксированного размера\|блок]]. Размер блока конфигурируется (обычно 16, 32 или 64). Например: - Размер слоя: `num_layers * [[Вики/num_heads\|num_heads]] * d_head * 2` = 80 слоёв * 32 головы * 128 * 2 ≈ 2.5 MB.

Q: 3.2 Block Table (таблица страниц)

Для каждого запроса хранится массив логических идентификаторов блоков. [[Вики/Block manager\|Block manager]] ведёт глобальную [[Вики/hash\|хеш]]‑таблицу: physical_block_id -> { ref_count: int, allocated: bool, last_access_time: timestamp } Пример упрощённой структуры на [[Вики/SQL\|Python]]:

Q: 3.3 Copy-on-Write (COW) при совместном доступе

При [[Вики/beam search\|beam search]] или parallel [[Вики/sampling\|sampling]] несколько последовательностей могут иметь [[Вики/shared prefixes\|общие префиксы]] (первые [[Вики/cost\|токены]]). В [[Вики/Paged Attention\|PagedAttention]] такие последовательности могут ссылаться на одни и те же [[Вики/Physical KV-blocks\|физические блоки]] до тех пор, пока не потребуется модификация (например, при генерации разного следующего токена). При записи в такой [[Вики/блок фиксированного размера\|блок]] с

Q: 4.1 Allocation (аллокация)

При начале генерации нового токена для запроса **[[Вики/Block manager\|block manager]]** выделяет новый физический [[Вики/блок фиксированного размера\|блок]], если текущий логический [[Вики/блок фиксированного размера\|блок]] заполнен. Процесс: 1. Текущая [[Вики/context window\|длина последовательности]] (позиция `pos`).

Q: 4.2 Deallocation (деаллокация)

Когда [[Вики/Prompt engineering\|запрос]] завершён (сгенерирован [[Вики/exactly-once delivery\|EOS]] или достигнут лимит длины), все принадлежащие ему [[Вики/Physical KV-blocks\|физические блоки]] освобождаются: их `ref_count` уменьшается на 1. Если `ref_count` становится 0, [[Вики/блок фиксированного размера\|блок]] возвращается в пул свободных.

Q: 4.3 Preemption (вытеснение)

При нехватке свободных физических блоков **[[Вики/Block manager\|block manager]]** может вытеснить один или несколько запросов. [[Вики/preemption\|Вытеснение]] заключается в: 1. Выборе кандидата (обычно по алгоритму [[Вики/First-come-first-serve\|FCFS]] — первый выполненный, или по приоритету).

Краткий тезис

PagedAttention — это техника управления памятью для KV-кэша в больших языковых моделях, вдохновлённая страничной памятью операционных систем. Кэш разбивается на блоки фиксированного размера (например, 16 токенов), которые аллоцируются не последовательно, а через таблицу страниц. Это решает проблему фрагментации памяти (до 70% в наивных реализациях) и позволяет обслуживать больше одновременных запросов, особенно при длинных генерациях и пакетной обработке. PagedAttention является ключевым нововведением движка vLLM.

1. Проблема: фрагментация KV-кэша в традиционных подходах

При авторегрессивной генерации каждый новый токен требует доступа к KV-кэшу всех предыдущих токенов. Для каждого слоя модели и каждой головы внимания хранятся два вектора: Key (K) и Value (V). При пакетной обработке запросы имеют разную длину — как входную, так и генерируемую. Если выделять непрерывную память под каждый запрос (например, по максимуму контекстного окна), то большую часть времени она простаивает или фрагментируется.

Наивное управление памятью:

Каждому запросу выделяется непрерывный блок размером sequence length|max_seq_len * num_layers * num_heads * d_head * 2 (для K и V).
Если запрос заканчивается раньше, хвост блока остаётся неиспользованным (внутренняя фрагментация).
При освобождении одного запроса и аллокации для другого между ними могут образовываться неиспользуемые промежутки (внешняя фрагментация).

Результат: фрагментация памяти может достигать 60–80%, что резко снижает эффективный throughput.

Термин KV-кэш — структура, в которой на каждом шаге генерации сохраняются вычисленные ключи и значения для всех токенов последовательности, чтобы не пересчитывать их повторно.

2. Основная идея PagedAttention

PagedAttention заимствует концепцию страничной памяти из ОС: вместо одного непрерывного буфера под кэш для каждого запроса память разбивается на физические блоки (pages) одинакового размера (например, 16 токенов). Логическое представление кэша каждого запроса описывается таблицей страниц (block table), где перечислены номера физических блоков, хранящих его KV-кэш. Блоки могут располагаться в памяти не последовательно — точно так же, как виртуальные страницы процесса маппятся на произвольные физические фреймы.

Основные компоненты:

Логические блоки — виртуальные слоты для каждого запроса (например, 1-й логический блок включает токены 0..15, 2-й — 16..31 и т.д.).
Физические блоки — реальные участки памяти фиксированного размера. Количество физических блоков ограничено доступной памятью (например, на GPU).
Block table (таблица страниц) — маппинг от (request_id, logical_block_id) к physical_block_id. Для каждого запроса свой маппинг.
Block manager — компонент, который выделяет, освобождает и вытесняет физические блоки.

Преимущества:

Внутренняя фрагментация не превышает размера последнего блока (в среднем полблока). При размере блока 16 токенов и средней длине последовательности 100 токенов фрагментация < 5%.
Внешняя фрагментация практически отсутствует, так как освобождённый блок сразу может быть повторно использован любым другим запросом.
Возможен общий доступ к одним и тем же физическим блокам для разных последовательностей (например, beam search или parallel sampling) — copy-on-write.

3. Структуры данных: Block Table и типы блоков

3.1 Физические блоки

Каждый физический блок хранит KV-кэш для всех слоёв и всех голов внимания для набора токенов, попадающих в этот блок. Размер блока конфигурируется (обычно 16, 32 или 64). Например:

Размер слоя: num_layers * num_heads * d_head * 2 = 80 слоёв * 32 головы * 128 * 2 ≈ 2.5 MB.
Блок на 16 токенов: ~40 MB на один блок. Вся память GPU делится на такие блоки.

3.2 Block Table (таблица страниц)

Для каждого запроса хранится массив логических идентификаторов блоков. Block manager ведёт глобальную хеш‑таблицу:

physical_block_id -> { 
    ref_count: int, 
    allocated: bool, 
    last_access_time: timestamp 
}

Пример упрощённой структуры на Python:

class PhysicalBlock:
    def __init__(self, block_id, block_size, num_layers, num_heads, d_head):
        self.block_id = block_id
        self.ref_count = 0
        # реальная память (K, V) аллоцируется отдельно, здесь опущена
        self.kv_cache = None  # torch.Tensor shape: (num_layers, 2, num_heads, block_size, d_head)

class BlockManager:
    def __init__(self, num_blocks, block_size, num_layers, num_heads, d_head):
        self.num_blocks = num_blocks
        self.block_size = block_size
        self.blocks = [PhysicalBlock(i, block_size, num_layers, num_heads, d_head) 
                       for i in range(num_blocks)]
        self.free_blocks = list(range(num_blocks))  # очередь свободных ID
        # для каждого request_id храним список физических ID
        self.alloc_table = {}  # request_id -> list[physical_block_id]

    def allocate_blocks(self, request_id, num_blocks):
        # выделяет num_blocks свободных блоков
        allocated = []
        for _ in range(num_blocks):
            if not self.free_blocks:
                raise MemoryError("Out of memory")
            phys_id = self.free_blocks.pop(0)
            self.blocks[phys_id].ref_count = 1
            allocated.append(phys_id)
        self.alloc_table[request_id] = allocated
        return allocated

    def free_request(self, request_id):
        for phys_id in self.alloc_table.get(request_id, []):
            self.blocks[phys_id].ref_count -= 1
            if self.blocks[phys_id].ref_count == 0:
                self.free_blocks.append(phys_id)
        del self.alloc_table[request_id]

3.3 Copy-on-Write (COW) при совместном доступе

При beam search или parallel sampling несколько последовательностей могут иметь общие префиксы (первые токены). В PagedAttention такие последовательности могут ссылаться на одни и те же физические блоки до тех пор, пока не потребуется модификация (например, при генерации разного следующего токена). При записи в такой блок создаётся копия — это снижает потребление памяти для общих префиксов.

4. Операции: аллокация, деаллокация, preemption

4.1 Allocation (аллокация)

При начале генерации нового токена для запроса block manager выделяет новый физический блок, если текущий логический блок заполнен. Процесс:

Текущая длина последовательности (позиция pos).
Вычисляется логический номер блока: logical_block = pos // block_size.
Если этот логический блок ещё не маппится на физический (т.е. block_table[logical_block] пусто), то запрашивается новый физический блок из списка свободных.
Новый физический блок фиксируется в таблице, и ref_count устанавливается в 1.
KV-кэш для текущего токена записывается в соответствующую позицию внутри физического блока.

4.2 Deallocation (деаллокация)

Когда запрос завершён (сгенерирован EOS или достигнут лимит длины), все принадлежащие ему физические блоки освобождаются: их ref_count уменьшается на 1. Если ref_count становится 0, блок возвращается в пул свободных.

4.3 Preemption (вытеснение)

При нехватке свободных физических блоков block manager может вытеснить один или несколько запросов. Вытеснение заключается в:

Выборе кандидата (обычно по алгоритму FCFS — первый выполненный, или по приоритету).
Сохранении его KV-кэша на CPU (с возможной компрессией).
Освобождении его физических блоков.
Когда запрос снова становится активным, его блоки восстанавливаются из CPU (или пересчитываются заново, если кэш был выгружен).

Термин Preemption — механизм временной приостановки одного запроса для освобождения ресурсов, необходимых для другого.

Виды вытеснения:

Swap-based: блоки выгружаются на CPU (в paged memory OS‑стиль).
Recomputation-based: блоки удаляются, и при возобновлении запроса кэш пересчитывается с начала. Последнее проще, но дороже.

5. Pre-computed block table и оптимизация вычислений

5.1 Как attention вычисляется с paged‑блоками?

В стандартном attention для последовательности длины L вычисляется матрица A = Q * K^T. При paged организации K хранится в разрозненных блоках. Attention выполняется по блокам: для каждого физического блока загружается его часть K и V, вычисляются локальные scores, затем маскируются (для каузального внимания — только токены из предыдущих блоков и в пределах текущего блока). Результат агрегируется.

Это напоминает block-sparse attention, но без потери качества, так как все блоки присутствуют, хоть и хранятся непоследовательно.

5.2 Overhead

Дополнительный расход GPU времени на работу с block table и загрузку блоков из произвольных адресов (непрерывное чтение быстрее). Однако этот overhead компенсируется резким снижением фрагментации и большей утилизацией памяти (больше запросов → выше throughput).
Современные GPU (с архитектурой Hopper/Ampere) поддерживают asynchronous copy и многопоточность, что смягчает задержки.

6. Сравнение PagedAttention с другими подходами

Характеристика	Continuous batching (наивный)	PagedAttention (vLLM)
Управление памятью	Непрерывный буфер на запрос	Страничная организация
Фрагментация	60–80%	<5%
Max запросов в памяти	~4 (для 80B модели с контекстом 2K)	~20 (те же ресурсы)
Поддержка beam search	Сложно (копирование всего кэша)	Естественная (COW)
Overhead на адресацию	Низкий	Умеренный
Сложность реализации	Низкая	Средняя

7. Реализация в vLLM

vLLM — открытая библиотека для высокопроизводительного инференса LLM, в которой PagedAttention впервые реализован. Основные компоненты:

Scheduler — распределяет время GPU между запросами, принимает решения о preemption.
BlockManager — управляет физическими блоками (free pool, block table, ref count).
Attention backend — реализует PagedAttention на CUDA ядрах (использует custom kernels от NVIDIA).
Engine — оркестрирует инференс: prefilling блоками, decode с дозаполнением блоков.

Процесс в vLLM:

Запрос приходит, scheduler выделяет начальный физический блок (prefill этап).
На каждом decode‑шаге scheduler добавляет новый блок, если необходимо.
Если свободных блоков нет → scheduler вытесняет самый старый запрос.
После завершения запроса блоки возвращаются.

Поддержка prefix caching: если несколько запросов имеют одинаковый префикс (system prompt), vLLM может повторно использовать физические блоки, соответствующие этому префиксу (global block table).

8. Влияние на throughput и латентность

Throughput (количество токенов в секунду) при PagedAttention может быть в 2–5 раз выше, чем у наивного конвейерного инференса, за счёт:

большего batch size в памяти;
эффективной утилизации GPU при длинных запросах;
поддержки beam search без копирования всего кэша.

Латентность (время до первого токена) незначительно страдает из-за overhead таблицы страниц, но в целом остаётся низкой за счёт оптимизации CUDA ядер.

Пет-проект для закрепления

Задача: реализовать упрощённый симулятор PagedAttention на Python (без реального GPU), демонстрирующий выигрыш от страничной организации.

Инструменты: Python 3.9+, numpy, time.

Шаги:

Создайте класс SimpleBlockManager с пулом физических блоков (блок = numpy.array для хранения значений K и V).
Реализуйте allocate_sequence(seq_len) — возвращает список физических блоков, аллоцированных для этой последовательности.
Симулируйте 100 запросов с разными длинами (случайное распределение от 50 до 500 токенов). Подсчитайте общее количество занятых блоков.
Сравните с наивным подходом: выделение непрерывного массива под max_len для каждого запроса (max_len = 512). Вычислите фрагментацию.
Добавьте preemption: если блоков не хватает, выгрузите самый старый запрос на CPU (в файл).
Выведите гистограмму утилизации памяти.

Ожидаемый результат:

Фрагментация в paged‑версии ≤5% (при block_size=16).
Количество одновременно обслуживаемых запросов в paged‑версии в 3–5 раз больше.
Программа выводит таблицу сравнения.

Связь с другими вопросами

Вопрос	Тема
202	Как работает KV-cache и какие есть способы его оптимизации?
200	Как работают continuous batching и dynamic batching?
835	Как реализовать эффективный батчинг для Agentic RAG?
840	Как управлять состоянием (conversation state) в агентных системах?
203	Какие существуют техники префиксного кэширования?
10	Что такое Self-RAG и как он устроен?

Краткий тезис

1. Проблема: фрагментация KV-кэша в традиционных подходах

Наивное управление памятью:

Каждому запросу выделяется непрерывный блок размером sequence length|max_seq_len * num_layers * num_heads * d_head * 2 (для K и V).
Если запрос заканчивается раньше, хвост блока остаётся неиспользованным (внутренняя фрагментация).
При освобождении одного запроса и аллокации для другого между ними могут образовываться неиспользуемые промежутки (внешняя фрагментация).

Результат: фрагментация памяти может достигать 60–80%, что резко снижает эффективный throughput.

2. Основная идея PagedAttention

Основные компоненты:

Логические блоки — виртуальные слоты для каждого запроса (например, 1-й логический блок включает токены 0..15, 2-й — 16..31 и т.д.).
Физические блоки — реальные участки памяти фиксированного размера. Количество физических блоков ограничено доступной памятью (например, на GPU).
Block table (таблица страниц) — маппинг от (request_id, logical_block_id) к physical_block_id. Для каждого запроса свой маппинг.
Block manager — компонент, который выделяет, освобождает и вытесняет физические блоки.

Преимущества:

Внутренняя фрагментация не превышает размера последнего блока (в среднем полблока). При размере блока 16 токенов и средней длине последовательности 100 токенов фрагментация < 5%.
Внешняя фрагментация практически отсутствует, так как освобождённый блок сразу может быть повторно использован любым другим запросом.
Возможен общий доступ к одним и тем же физическим блокам для разных последовательностей (например, beam search или parallel sampling) — copy-on-write.

3. Структуры данных: Block Table и типы блоков

3.1 Физические блоки

Размер слоя: num_layers * num_heads * d_head * 2 = 80 слоёв * 32 головы * 128 * 2 ≈ 2.5 MB.
Блок на 16 токенов: ~40 MB на один блок. Вся память GPU делится на такие блоки.

3.2 Block Table (таблица страниц)

physical_block_id -> { 
    ref_count: int, 
    allocated: bool, 
    last_access_time: timestamp 
}

Пример упрощённой структуры на Python:

class PhysicalBlock:
    def __init__(self, block_id, block_size, num_layers, num_heads, d_head):
        self.block_id = block_id
        self.ref_count = 0
        # реальная память (K, V) аллоцируется отдельно, здесь опущена
        self.kv_cache = None  # torch.Tensor shape: (num_layers, 2, num_heads, block_size, d_head)

class BlockManager:
    def __init__(self, num_blocks, block_size, num_layers, num_heads, d_head):
        self.num_blocks = num_blocks
        self.block_size = block_size
        self.blocks = [PhysicalBlock(i, block_size, num_layers, num_heads, d_head) 
                       for i in range(num_blocks)]
        self.free_blocks = list(range(num_blocks))  # очередь свободных ID
        # для каждого request_id храним список физических ID
        self.alloc_table = {}  # request_id -> list[physical_block_id]

    def allocate_blocks(self, request_id, num_blocks):
        # выделяет num_blocks свободных блоков
        allocated = []
        for _ in range(num_blocks):
            if not self.free_blocks:
                raise MemoryError("Out of memory")
            phys_id = self.free_blocks.pop(0)
            self.blocks[phys_id].ref_count = 1
            allocated.append(phys_id)
        self.alloc_table[request_id] = allocated
        return allocated

    def free_request(self, request_id):
        for phys_id in self.alloc_table.get(request_id, []):
            self.blocks[phys_id].ref_count -= 1
            if self.blocks[phys_id].ref_count == 0:
                self.free_blocks.append(phys_id)
        del self.alloc_table[request_id]

3.3 Copy-on-Write (COW) при совместном доступе

4. Операции: аллокация, деаллокация, preemption

4.1 Allocation (аллокация)

Текущая длина последовательности (позиция pos).
Вычисляется логический номер блока: logical_block = pos // block_size.
Если этот логический блок ещё не маппится на физический (т.е. block_table[logical_block] пусто), то запрашивается новый физический блок из списка свободных.
Новый физический блок фиксируется в таблице, и ref_count устанавливается в 1.
KV-кэш для текущего токена записывается в соответствующую позицию внутри физического блока.

4.2 Deallocation (деаллокация)

4.3 Preemption (вытеснение)

Выборе кандидата (обычно по алгоритму FCFS — первый выполненный, или по приоритету).
Сохранении его KV-кэша на CPU (с возможной компрессией).
Освобождении его физических блоков.
Когда запрос снова становится активным, его блоки восстанавливаются из CPU (или пересчитываются заново, если кэш был выгружен).

Виды вытеснения:

Swap-based: блоки выгружаются на CPU (в paged memory OS‑стиль).
Recomputation-based: блоки удаляются, и при возобновлении запроса кэш пересчитывается с начала. Последнее проще, но дороже.

5. Pre-computed block table и оптимизация вычислений

5.1 Как attention вычисляется с paged‑блоками?

5.2 Overhead

Дополнительный расход GPU времени на работу с block table и загрузку блоков из произвольных адресов (непрерывное чтение быстрее). Однако этот overhead компенсируется резким снижением фрагментации и большей утилизацией памяти (больше запросов → выше throughput).
Современные GPU (с архитектурой Hopper/Ampere) поддерживают asynchronous copy и многопоточность, что смягчает задержки.

6. Сравнение PagedAttention с другими подходами

Характеристика	Continuous batching (наивный)	PagedAttention (vLLM)
Управление памятью	Непрерывный буфер на запрос	Страничная организация
Фрагментация	60–80%	<5%
Max запросов в памяти	~4 (для 80B модели с контекстом 2K)	~20 (те же ресурсы)
Поддержка beam search	Сложно (копирование всего кэша)	Естественная (COW)
Overhead на адресацию	Низкий	Умеренный
Сложность реализации	Низкая	Средняя

7. Реализация в vLLM

Scheduler — распределяет время GPU между запросами, принимает решения о preemption.
BlockManager — управляет физическими блоками (free pool, block table, ref count).
Attention backend — реализует PagedAttention на CUDA ядрах (использует custom kernels от NVIDIA).
Engine — оркестрирует инференс: prefilling блоками, decode с дозаполнением блоков.

Процесс в vLLM:

Запрос приходит, scheduler выделяет начальный физический блок (prefill этап).
На каждом decode‑шаге scheduler добавляет новый блок, если необходимо.
Если свободных блоков нет → scheduler вытесняет самый старый запрос.
После завершения запроса блоки возвращаются.

8. Влияние на throughput и латентность

большего batch size в памяти;
эффективной утилизации GPU при длинных запросах;
поддержки beam search без копирования всего кэша.

Пет-проект для закрепления

Инструменты: Python 3.9+, numpy, time.

Шаги:

Создайте класс SimpleBlockManager с пулом физических блоков (блок = numpy.array для хранения значений K и V).
Реализуйте allocate_sequence(seq_len) — возвращает список физических блоков, аллоцированных для этой последовательности.
Симулируйте 100 запросов с разными длинами (случайное распределение от 50 до 500 токенов). Подсчитайте общее количество занятых блоков.
Сравните с наивным подходом: выделение непрерывного массива под max_len для каждого запроса (max_len = 512). Вычислите фрагментацию.
Добавьте preemption: если блоков не хватает, выгрузите самый старый запрос на CPU (в файл).
Выведите гистограмму утилизации памяти.

Ожидаемый результат:

Фрагментация в paged‑версии ≤5% (при block_size=16).
Количество одновременно обслуживаемых запросов в paged‑версии в 3–5 раз больше.
Программа выводит таблицу сравнения.

Связь с другими вопросами

Вопрос	Тема
202	Как работает KV-cache и какие есть способы его оптимизации?
200	Как работают continuous batching и dynamic batching?
835	Как реализовать эффективный батчинг для Agentic RAG?
840	Как управлять состоянием (conversation state) в агентных системах?
203	Какие существуют техники префиксного кэширования?
10	Что такое Self-RAG и как он устроен?

Как работает paged attention? (детально)

Краткий тезис

1. Проблема: фрагментация KV-кэша в традиционных подходах

2. Основная идея PagedAttention

3. Структуры данных: Block Table и типы блоков

3.1 Физические блоки

3.2 Block Table (таблица страниц)

3.3 Copy-on-Write (COW) при совместном доступе

4. Операции: аллокация, деаллокация, preemption

4.1 Allocation (аллокация)

4.2 Deallocation (деаллокация)

4.3 Preemption (вытеснение)

5. Pre-computed block table и оптимизация вычислений

5.1 Как attention вычисляется с paged‑блоками?

5.2 Overhead

6. Сравнение PagedAttention с другими подходами

7. Реализация в vLLM

8. Влияние на throughput и латентность

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Как работает paged attention? (детально)

Краткий тезис

1. Проблема: фрагментация KV-кэша в традиционных подходах

2. Основная идея PagedAttention

3. Структуры данных: Block Table и типы блоков

3.1 Физические блоки

3.2 Block Table (таблица страниц)

3.3 Copy-on-Write (COW) при совместном доступе

4. Операции: аллокация, деаллокация, preemption

4.1 Allocation (аллокация)

4.2 Deallocation (деаллокация)

4.3 Preemption (вытеснение)

5. Pre-computed block table и оптимизация вычислений

5.1 Как attention вычисляется с paged‑блоками?

5.2 Overhead

6. Сравнение PagedAttention с другими подходами

7. Реализация в vLLM

8. Влияние на throughput и латентность

Пет-проект для закрепления

Связь с другими вопросами

Навигация