Поиск
- wikiMulti-tenant LLM serving
# Multi-tenant LLM serving ## Определение Организация доступа нескольких команд или продуктов к LLM на общем GPU. Включает планирование запросов (scheduling…
- wikiAdaptive concurrency
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[411. Как вы…
- wikiCoDel
# CoDel ## Определение CoDel (Controlled Delay) — алгоритм управления очередью, применяемый в LLM serving для предотвращения перегрузок и обеспечения предсказуемой задержки ответов…
- wikiRedis List
…Может использоваться для backpressure или буферизации запросов в LLM serving. ## Где встречается - [[411. Как вы проектируете backpressure в LLM serving…
- wiki503 Service Unavailable
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[248. Что такое…
- wikiPhysical isolation
# Physical isolation ## Определение Выделение целых физических GPU разным tenant'ам для полной изоляции без interference, применяемое в multi-tenant LLM…
- wikiMin-max fairness
…Используется в GPU scheduling для multi-tenant LLM serving. ## Где встречается - [[826. Как организовать GPU scheduling для multi-tenant LLM…
- wikitermTimeoutSeconds
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
- wikiPreStop hook
…Используется для graceful shutdown контейнеров LLM serving. ## Где встречается - [[409. Как вы проектируете graceful shutdown для LLM serving pod в…
- wikibounded queue
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[411. Как вы…
- wikicompute utilization
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
- wikiload shedding
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[249. Как вы…
- wikiGrace Hopper
# Grace Hopper ## Определение Суперчип NVIDIA, объединяющий CPU Grace и GPU Hopper с unified memory через NVLink-C2C, упрощающий LLM serving…
- wiki504 Gateway Timeout
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
- wikiinference
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
- wikiQueue length
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[249. Как вы…
- wikimemory bandwidth utilization
# memory bandwidth utilization ## Определение Метрика доли используемой пропускной способности памяти; ключевой показатель эффективности LLM serving, особенно decode stage. ## Где встречается…
- wikirequest_rate
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
- wikiNVTX
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
- wikiGang scheduling
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
- wikiqueue_latency
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
- wikiasync CUDA
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
- wikipod_count
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
- wikiGini coefficient
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
- wikiHierarchical resource quotas
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
- wikidecoder-only model
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
- wikierror_rate_429
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
- wikiStatic partitioning
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
- wikimodel.unload
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
- wikiBinpacking
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
- wikiDynamic resource allocation
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
- wikiARM Neoverse V2
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
- wikiLPDDR5X
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
- wikiGraceful preemption
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
- wiki__launch_bounds__
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
- wikiinflight requests
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
- wiki502 Bad Gateway
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
- wikidrain
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
- wikiSIGKILL
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
- wikimax_num_seqs
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] - [[224. vLLM кластер…
- wikiNVLink-C2C
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
- wikiGPU utilization
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
- wikiKueue
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[Практика…
- wikiMIG Manager
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
- wikiClusterIP
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
- wikiFair share
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[800…
- wikiKubernetes device plugin
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[Практика…
- wikiGPU scheduling
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[Практика…
- wikiFixed window
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
- wikioccupancy
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…