Поиск
- wikiMulti-tenant LLM serving
# Multi-tenant LLM serving ## Определение Организация доступа нескольких команд или продуктов к LLM на общем GPU. Включает планирование запросов (scheduling…
- wikiinference
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
- wikiAdaptive concurrency
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[411. Как вы…
- wikiServing API
…Как вы проектируете feature store для ML фичей, используемых LLM|262. Как вы проектируете feature store для ML фичей, используемых…
- wiki503 Service Unavailable
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[248. Что такое…
- wikiCoDel
# CoDel ## Определение CoDel (Controlled Delay) — алгоритм управления очередью, применяемый в LLM serving для предотвращения перегрузок и обеспечения предсказуемой задержки ответов…
- wikiRedis List
…Может использоваться для backpressure или буферизации запросов в LLM serving. ## Где встречается - [[411. Как вы проектируете backpressure в LLM serving…
- wikiServing infrastructure
…Какие 3 книгикурса вы рекомендуете по production LLM|80. Какие 3 книгикурса вы рекомендуете по production LLM]] ## Навигация - [[00. Индекс…
- wikiPhysical isolation
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[800…
- wikiload shedding
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[249. Как вы…
- wikibounded queue
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[411. Как вы…
- wikiMin-max fairness
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
- wikitermTimeoutSeconds
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
- wikiPreStop hook
…Используется для graceful shutdown контейнеров LLM serving. ## Где встречается - [[409. Как вы проектируете graceful shutdown для LLM serving pod в…
- wikicompute utilization
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
- wikiGrace Hopper
# Grace Hopper ## Определение Суперчип NVIDIA, объединяющий CPU Grace и GPU Hopper с unified memory через NVLink-C2C, упрощающий LLM serving…
- wiki504 Gateway Timeout
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
- wikiTemporal partitioning
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[800…
- wikiQueue length
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[249. Как вы…
- wikimemory bandwidth utilization
# memory bandwidth utilization ## Определение Метрика доли используемой пропускной способности памяти; ключевой показатель эффективности LLM serving, особенно decode stage. ## Где встречается…
- wikirequest_rate
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
- wikidecoder-only model
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
- wikiNVTX
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
- wikiGang scheduling
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
- wikiqueue_latency
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
- wikiBinpacking
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
- wikiLPDDR5X
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
- wikiasync CUDA
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
- wikipod_count
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
- wikiGraceful preemption
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
- wikiGini coefficient
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
- wikiHierarchical resource quotas
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
- wikierror_rate_429
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
- wikiStatic partitioning
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
- wikimodel.unload
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
- wikiDynamic resource allocation
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
- wikiARM Neoverse V2
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
- wikiGPU utilization
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
- wiki__launch_bounds__
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
- wikiMIG Manager
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…
- wikiinflight requests
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
- wiki502 Bad Gateway
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
- wikioccupancy
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving…
- wikidrain
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
- wikiSIGKILL
…Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving…
- wikimax_num_seqs
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] - [[224. vLLM кластер…
- wikiFixed window
…Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…
- wikiNVLink-C2C
…NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…
- wikiDCGM
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[205…
- wikiKueue
…Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[Практика…