Copy-on-write

Определение

Стратегия отложенного копирования, при которой несколько запросов разделяют одни и те же физические блоки KV-кэша до момента изменения данных, что экономит память. Используется в PagedAttention.

Где встречается

159. Как speculative decoding взаимодействует с KV cache
202. Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма
650. Что такое memory-efficient attention для long context на 8x H100
837. Как работает paged attention (детально)

Copy-on-write

Copy-on-write

Определение

Где встречается

Навигация