English translation is not available yet. Showing Russian content.
memory fragmentation
memory fragmentation
Определение
Неэффективное использование памяти из-за разрозненных блоков (например, KV-кэша). Решается с помощью PagedAttention, снижая фрагментацию с 70% до 5%.
Где встречается
- 202. Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма
- 452. Как вы управляете memory fragmentation при длительном раннинге LLM сервера
- 836. Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)
- 843. Что такое continuous batching и как оно влияет на throughput
- 846. Как дебажить memory fragmentation в LLM сервере
- Практика
- 800+ вопросов
- 74. Настроить auto-scaling для vLLM