Поиск

answerTensorRT-LLM vs vLLM — сравнение для production deployment?
…Пример конфигурации для [[Вики/TensorRT-LLM\|TensorRT-LLM]] ```python # Пример запуска через TensorRT-LLM (упрощённо) from tensorrt_llm import LLM…
wikiCustom layers
# Custom layers ## Определение Пользовательские слои модели, требующие специальных плагинов при развертывании в TensorRT-LLM. ## Где встречается - [[318. TensorRT-LLM vs…
wikiFixed shapes
# Fixed shapes ## Определение Оптимизация инференса, при которой длина последовательности и размер батча фиксированы, что позволяет эффективно использовать TensorRT-LLM и…
answerКак вы деплоите LLM с TensorRT-LLM в production?
…Как вы деплоите LLM с TensorRT-LLM в production? ## Краткий тезис [[Вики/TensorRT-LLM\|TensorRT-LLM]] — это библиотека от NVIDIA…
answerЧто такое MLIR и как он используется в IREE/TensorRT-LLM?
…TensorRT-LLM [[Вики/TensorRT-LLM\|TensorRT-LLM]] — это библиотека от NVIDIA для оптимизации инференса больших языковых моделей на [[Вики/GPU…
wikiLogits processors
…генерации. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
wikiInference engine
…GPU. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
wikiMax sequence length
…инференсе. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
wikiTensorRT Plugin API
…функциональность. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
wikiRay Serve
…инференса. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
wikiConcurrent requests
…перегрузке LLM сервера]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
wikiTensorRT-LLM
…в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
wikidynamic shapes
…Graph). ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
wikioperator optimization
# operator optimization ## Определение Операторные оптимизации в TensorRT-LLM, направленные на ускорение инференса за счёт слияния и перестановки операций. ## Где встречается…
wikiPlan
# Plan ## Определение Структурированная последовательность шагов, выполняемая агентом для достижения цели, или бинарный файл оптимизированной модели TensorRT-LLM после сборки. ## Где…
wikiCUDA graphs
…ускоряют LLM инференс]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
wikisequence slots
# sequence slots ## Определение Механизм в TensorRT-LLM для параллельной обработки множества запросов путём выделения фиксированных слотов под последовательности. Позволяет эффективно…
wikiLinalg
# Linalg ## Определение Диалект MLIR, предоставляющий операции линейной алгебры, используемый для оптимизации вычислений в фреймворках вроде TensorRT-LLM. ## Где встречается - [[317…
wikiIn-place rollback
…без копирования данных, применяется в оптимизированных инференс-движках (vLLM, TensorRT-LLM). ## Где встречается - [[159. Как speculative decoding взаимодействует с KV…
wikiDialect
…Позволяет строить многоуровневые оптимизации, как в IREE и TensorRT-LLM. ## Где встречается - [[317. Что такое MLIR и как он используется…
answerЧто такое ONNX Runtime и когда он выгоден для LLM?
…Поддерживает FP16, INT8 | | [[Вики/TensorRT-LLM\|TensorRT]] | NVIDIA GPU | Дополнительная оптимизация через TensorRT (слияние слоёв, kernel auto-tuning) | | [[Вики/DirectML…
wikisampling
…RAG → LLM → user]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
wikipadded sequences
…влияет на attention]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
wikistatic batching
…инференсом для LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
wikiTriton Inference Server
…в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
wikiGPTQ
…в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
answerЧто такое FP8 инференс на H100 (Transformer Engine)?
…Практические рекомендации и пример кода Для включения FP8 инференса на H100 можно использовать: - [[Вики/TensorRT-LLM\|TensorRT-LLM]] — оптимизированный движок…
wikiAWQ
…в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
wikiHugging Face
…на 10M документов]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
answerЧто такое CUDA graphs и как они ускоряют LLM инференс?
…автоматически захватывает графы для каждого размера блока (block size) и переиспользует их при [[Вики/continuous batching\|continuous batching]]. - [[Вики/TensorRT…
wikiKubernetes
…instances в облаке]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
wikikernel fusion
…в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
answerКак работает Torch Compile (torch.compile) и в чем его ограничения для LLM?
…Что такое MIG (Multi-Instance GPU) и когда он полезен для LLM\|315]] | Оптимизация инференса LLM (vLLM, TensorRT-LLM) | | [[317…
answerЧто такое operator fusion в компиляторах и какие паттерны fusion существуют?
…Паттерны operator fusion Существует несколько основных паттернов, которые компиляторы ([[Вики/Apache TVM\|TVM]], [[Вики/XLA\|XLA]], [[Вики/TensorRT-LLM\|TensorRT…
answerЧто такое kernel fusion и как он применяется в LLM serving?
…fusion) и fused kernels для быстрого serving. - [[Вики/TensorRT-LLM\|TensorRT-LLM]] — компилирует модели с автоматическим fusion. - [[Вики/xFormers\|xFormers…
wikiDocker
…DOCX) в production]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
answerКак вы деплоите speculative decoding в production?
…Рекомендация для production Используйте библиотеки, которые уже реализуют speculative decoding с оптимизированным KV cache (например, vLLM, TensorRT-LLM). Ручная реализация…
answerКак speculative decoding взаимодействует с KV cache?
…в некоторых фреймворках (vLLM, [[Вики/TensorRT-LLM\|TensorRT-LLM]]) [[Вики/KV-cache\|KV cache]] хранится в виде списка тензоров, и…
answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
…Особенности: - [[Вики/GPU\|GPU]]‑only (оптимизирован для [[Вики/CUDA\|CUDA]]‑ядер, например, через [[Вики/Marlin kernel\|Marlin]] или [[Вики/TensorRT…
wikiTensor parallelism
…на DGX H100]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Оптимизации для H100 - [[Вики/TensorRT-LLM\|TensorRT-LLM]]: фреймворк для инференса, использующий Tensor Cores и FP8. Даёт прирост до 2x…
answerКак работают CUDA graphs и когда их использовать?
…Ускорение в LLM инференсе Практические фреймворки ([[Вики/Paged Attention\|vLLM]], [[Вики/TensorRT-LLM\|TensorRT-LLM]]) активно используют [[Вики/CUDA graphs…
wikiPrometheus
…в ingestion пайплайне]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
answerЧто такое KV cache reuse в multi-turn диалогах и как его реализовать?
…в реальных фреймворках ([[Вики/Paged Attention\|vLLM]], [[Вики/TensorRT-LLM\|TensorRT-LLM]]) [[Вики/cache_control\|управление кэшем]] встроено и оптимизировано…
answerКак вы разворачиваете LLM в production (self-hosted)?
…в управлении памятью, чем vLLM | | [[Вики/TensorRT-LLM\|TensorRT-LLM]] | NVIDIA | [[Вики/TensorRT-LLM\|TensorRT]] оптимизации, поддержка многопоточности, [[Вики/continuous…
wikithroughput
…multi-GPU инференсе]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
wikiVLLM
…ускоряют LLM инференс]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
wikiPaged Attention
…в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
wikicontinuous batching
…в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
answerЧто такое TVM (Apache TVM) и зачем он нужен для AI инференса?
…Сравнение с другими подходами | Инструмент | Тип | Преимущества | Недостатки | |------------|-----|--------------|------------| | [[Вики/TensorRT-LLM\|TensorRT]] | Оптимизатор NVIDIA | Высокая производительность на NVIDIA GPU, поддержка…