Offloading
Offloading
Определение
Перемещение данных (весов, KV cache) из GPU в CPU или на диск при нехватке памяти, используется для инференса с длинными контекстами или гибридных вычислений.
Где встречается
- 159. Как speculative decoding взаимодействует с KV cache
- 161. Как вы измеряете эффективность speculative decoding
- 433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
- 443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.
- 452. Как вы управляете memory fragmentation при длительном раннинге LLM сервера
- 680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)
- 709. NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving
- 215. Настроить expert parallelism для Mixtral