gpu-memory-utilization
gpu-memory-utilization
Определение
Параметр vLLM, определяющий долю видеопамяти GPU, используемую для инференса. Влияет на возможность включения chunked prefill и общую производительность.
Где встречается
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 206. Развернуть vLLM vs TGI, сравнить throughput
- 212. Настроить chunked prefill для long context
- 224. vLLM кластер на 4 GPU