English translation is not available yet. Showing Russian content.
Block manager
Block manager
Определение
Компонент vLLM, отвечающий за учёт, выделение, освобождение и вытеснение физических блоков KV-кэша, а также ведение block tables для каждого запроса.
Где встречается
- 202. Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма
- 447. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
- 837. Как работает paged attention (детально)