таблица страниц
таблица страниц
Определение
Структура данных в Paged Attention, отображающая логические позиции токенов на физические блоки KV-кэша. Позволяет непоследовательное хранение и эффективное управление памятью.
Где встречается
- 202. Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма
- 207. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
- 836. Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)
- 837. Как работает paged attention (детально)
- 800+ вопросов