Поиск

wikiMulti-tenant LLM serving
# Multi-tenant LLM serving ## Определение Организация доступа нескольких команд или продуктов к LLM на общем GPU. Включает планирование запросов (scheduling…
wikiAdaptive concurrency
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[411. Как вы…
wikiCoDel
# CoDel ## Определение CoDel (Controlled Delay) — алгоритм управления очередью, применяемый в LLM serving для предотвращения перегрузок и обеспечения предсказуемой задержки ответов…
wikiRedis List
…Может использоваться для backpressure или буферизации запросов в LLM serving. ## Где встречается - [[411. Как вы проектируете backpressure в LLM serving…
wiki503 Service Unavailable
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[248. Что такое…
wikiPhysical isolation
# Physical isolation ## Определение Выделение целых физических GPU разным tenant'ам для полной изоляции без interference, применяемое в multi-tenant LLM…
wikiMin-max fairness
…Используется в GPU scheduling для multi-tenant LLM serving. ## Где встречается - [[826. Как организовать GPU scheduling для multi-tenant LLM…
wikitermTimeoutSeconds
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
wikiPreStop hook
…Используется для graceful shutdown контейнеров LLM serving. ## Где встречается - [[409. Как вы проектируете graceful shutdown для LLM serving pod в…
wikibounded queue
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[411. Как вы…
wikicompute utilization
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
wikiload shedding
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[249. Как вы…
wikiGrace Hopper
# Grace Hopper ## Определение Суперчип NVIDIA, объединяющий CPU Grace и GPU Hopper с unified memory через NVLink-C2C, упрощающий LLM serving…
wiki504 Gateway Timeout
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
wikiinference
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
wikiQueue length
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[249. Как вы…
wikimemory bandwidth utilization
# memory bandwidth utilization ## Определение Метрика доли используемой пропускной способности памяти; ключевой показатель эффективности LLM serving, особенно decode stage. ## Где встречается…
wikirequest_rate
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
wikiNVTX
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
wikiGang scheduling
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
wikiqueue_latency
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
wikiasync CUDA
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
wikipod_count
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
wikiGini coefficient
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
wikiHierarchical resource quotas
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
wikidecoder-only model
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
wikierror_rate_429
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
wikiStatic partitioning
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
wikimodel.unload
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
wikiBinpacking
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
wikiDynamic resource allocation
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
wikiARM Neoverse V2
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
wikiLPDDR5X
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
wikiGraceful preemption
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
wiki__launch_bounds__
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
wikiinflight requests
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
wiki502 Bad Gateway
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
wikidrain
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
wikiSIGKILL
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
wikimax_num_seqs
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] - [[224. vLLM кластер…
wikiNVLink-C2C
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
wikiGPU utilization
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
wikiKueue
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[Практика…
wikiMIG Manager
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
wikiClusterIP
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
wikiFair share
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[800…
wikiKubernetes device plugin
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[Практика…
wikiGPU scheduling
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[Практика…
wikiFixed window
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
wikioccupancy
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…