Поиск

wikiMulti-tenant LLM serving
# Multi-tenant LLM serving ## Определение Организация доступа нескольких команд или продуктов к LLM на общем GPU. Включает планирование запросов (scheduling…
wikiinference
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
wikiAdaptive concurrency
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[411. Как вы…
wikiServing API
…Как вы проектируете feature store для ML фичей, используемых LLM|262. Как вы проектируете feature store для ML фичей, используемых…
wiki503 Service Unavailable
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[248. Что такое…
wikiCoDel
# CoDel ## Определение CoDel (Controlled Delay) — алгоритм управления очередью, применяемый в LLM serving для предотвращения перегрузок и обеспечения предсказуемой задержки ответов…
wikiRedis List
…Может использоваться для backpressure или буферизации запросов в LLM serving. ## Где встречается - [[411. Как вы проектируете backpressure в LLM serving…
wikiServing infrastructure
…Какие 3 книгикурса вы рекомендуете по production LLM|80. Какие 3 книгикурса вы рекомендуете по production LLM]] ## Навигация - [[00. Индекс…
wikiPhysical isolation
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[800…
wikiload shedding
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[249. Как вы…
wikibounded queue
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[411. Как вы…
wikiMin-max fairness
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
wikitermTimeoutSeconds
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
wikiPreStop hook
…Используется для graceful shutdown контейнеров LLM serving. ## Где встречается - [[409. Как вы проектируете graceful shutdown для LLM serving pod в…
wikicompute utilization
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
wikiGrace Hopper
# Grace Hopper ## Определение Суперчип NVIDIA, объединяющий CPU Grace и GPU Hopper с unified memory через NVLink-C2C, упрощающий LLM serving…
wiki504 Gateway Timeout
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
wikiTemporal partitioning
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[800…
wikiQueue length
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[249. Как вы…
wikimemory bandwidth utilization
# memory bandwidth utilization ## Определение Метрика доли используемой пропускной способности памяти; ключевой показатель эффективности LLM serving, особенно decode stage. ## Где встречается…
wikirequest_rate
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
wikidecoder-only model
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
wikiNVTX
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
wikiGang scheduling
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
wikiqueue_latency
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
wikiBinpacking
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
wikiLPDDR5X
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
wikiasync CUDA
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
wikipod_count
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
wikiGraceful preemption
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
wikiGini coefficient
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
wikiHierarchical resource quotas
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
wikierror_rate_429
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
wikiStatic partitioning
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
wikimodel.unload
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
wikiDynamic resource allocation
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
wikiARM Neoverse V2
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
wikiGPU utilization
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
wiki__launch_bounds__
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
wikiMIG Manager
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
wikiinflight requests
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
wiki502 Bad Gateway
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
wikioccupancy
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
wikidrain
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
wikiSIGKILL
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
wikimax_num_seqs
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] - [[224. vLLM кластер…
wikiFixed window
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
wikiNVLink-C2C
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
wikiDCGM
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[205…
wikiKueue
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[Практика…