Поиск

  • wikiMulti-tenant LLM serving

    # Multi-tenant LLM serving ## Определение Организация доступа нескольких команд или продуктов к LLM на общем GPU. Включает планирование запросов (scheduling…

  • wikiAdaptive concurrency

    …Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[411. Как вы…

  • wikiCoDel

    # CoDel ## Определение CoDel (Controlled Delay) — алгоритм управления очередью, применяемый в LLM serving для предотвращения перегрузок и обеспечения предсказуемой задержки ответов…

  • wikiRedis List

    …Может использоваться для backpressure или буферизации запросов в LLM serving. ## Где встречается - [[411. Как вы проектируете backpressure в LLM serving

  • wiki503 Service Unavailable

    …Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[248. Что такое…

  • wikiPhysical isolation

    # Physical isolation ## Определение Выделение целых физических GPU разным tenant'ам для полной изоляции без interference, применяемое в multi-tenant LLM

  • wikiMin-max fairness

    …Используется в GPU scheduling для multi-tenant LLM serving. ## Где встречается - [[826. Как организовать GPU scheduling для multi-tenant LLM

  • wikitermTimeoutSeconds

    …Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving

  • wikiPreStop hook

    …Используется для graceful shutdown контейнеров LLM serving. ## Где встречается - [[409. Как вы проектируете graceful shutdown для LLM serving pod в…

  • wikibounded queue

    …Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[411. Как вы…

  • wikicompute utilization

    …Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving

  • wikiload shedding

    …Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[249. Как вы…

  • wikiGrace Hopper

    # Grace Hopper ## Определение Суперчип NVIDIA, объединяющий CPU Grace и GPU Hopper с unified memory через NVLink-C2C, упрощающий LLM serving

  • wiki504 Gateway Timeout

    …Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving

  • wikiinference

    …NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…

  • wikiQueue length

    …Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[249. Как вы…

  • wikimemory bandwidth utilization

    # memory bandwidth utilization ## Определение Метрика доли используемой пропускной способности памяти; ключевой показатель эффективности LLM serving, особенно decode stage. ## Где встречается…

  • wikirequest_rate

    …Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…

  • wikiNVTX

    …Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving

  • wikiGang scheduling

    …Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…

  • wikiqueue_latency

    …Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…

  • wikiasync CUDA

    …Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving

  • wikipod_count

    …Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…

  • wikiGini coefficient

    …Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…

  • wikiHierarchical resource quotas

    …Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…

  • wikidecoder-only model

    …Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving

  • wikierror_rate_429

    …Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…

  • wikiStatic partitioning

    …Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…

  • wikimodel.unload

    …Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving

  • wikiBinpacking

    …Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…

  • wikiDynamic resource allocation

    …Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…

  • wikiARM Neoverse V2

    …NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…

  • wikiLPDDR5X

    …NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…

  • wikiGraceful preemption

    …Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…

  • wiki__launch_bounds__

    …Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving

  • wikiinflight requests

    …Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving

  • wiki502 Bad Gateway

    …Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving

  • wikidrain

    …Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving

  • wikiSIGKILL

    …Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving

  • wikimax_num_seqs

    …Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] - [[224. vLLM кластер…

  • wikiNVLink-C2C

    …NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving|709. NVIDIA Grace Hopper CPU-GPU unified memory…

  • wikiGPU utilization

    …Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving

  • wikiKueue

    …Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[Практика…

  • wikiMIG Manager

    …Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] ## Навигация…

  • wikiClusterIP

    …Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes|409. Как вы проектируете graceful shutdown для LLM serving

  • wikiFair share

    …Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[800…

  • wikiKubernetes device plugin

    …Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[Практика…

  • wikiGPU scheduling

    …Как организовать GPU scheduling для multi-tenant LLM serving|826. Как организовать GPU scheduling для multi-tenant LLM serving]] - [[Практика…

  • wikiFixed window

    …Как вы проектируете backpressure в LLM serving системе|411. Как вы проектируете backpressure в LLM serving системе]] ## Навигация - [[00. Индекс…

  • wikioccupancy

    …Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)|305. Как вы профилируете GPU utilization для LLM serving