Copy-on-write
Copy-on-write
Определение
Стратегия отложенного копирования, при которой несколько запросов разделяют одни и те же физические блоки KV-кэша до момента изменения данных, что экономит память. Используется в PagedAttention.
Где встречается
- 159. Как speculative decoding взаимодействует с KV cache
- 202. Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма
- 650. Что такое memory-efficient attention для long context на 8x H100
- 837. Как работает paged attention (детально)