Paged Attention

Paged Attention

Определение

Алгоритм управления KV-кэшем в LLM-серверах (vLLM), разбивающий внимание на блоки (страницы) и использующий таблицу страниц для снижения фрагментации памяти и задержки инференса.

Где встречается

Навигация