Offloading

Определение

Перемещение данных (весов, KV cache) из GPU в CPU или на диск при нехватке памяти, используется для инференса с длинными контекстами или гибридных вычислений.

Где встречается

159. Как speculative decoding взаимодействует с KV cache
161. Как вы измеряете эффективность speculative decoding
433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.
452. Как вы управляете memory fragmentation при длительном раннинге LLM сервера
680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)
709. NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving
215. Настроить expert parallelism для Mixtral

Offloading

Offloading

Определение

Где встречается

Навигация