Поиск
- answerTensorRT-LLM vs vLLM — сравнение для production deployment?
…Пример конфигурации для [[Вики/TensorRT-LLM\|TensorRT-LLM]] ```python # Пример запуска через TensorRT-LLM (упрощённо) from tensorrt_llm import LLM…
- wikiCustom layers
# Custom layers ## Определение Пользовательские слои модели, требующие специальных плагинов при развертывании в TensorRT-LLM. ## Где встречается - [[318. TensorRT-LLM vs…
- wikiFixed shapes
# Fixed shapes ## Определение Оптимизация инференса, при которой длина последовательности и размер батча фиксированы, что позволяет эффективно использовать TensorRT-LLM и…
- answerКак вы деплоите LLM с TensorRT-LLM в production?
…Как вы деплоите LLM с TensorRT-LLM в production? ## Краткий тезис [[Вики/TensorRT-LLM\|TensorRT-LLM]] — это библиотека от NVIDIA…
- answerЧто такое MLIR и как он используется в IREE/TensorRT-LLM?
…TensorRT-LLM [[Вики/TensorRT-LLM\|TensorRT-LLM]] — это библиотека от NVIDIA для оптимизации инференса больших языковых моделей на [[Вики/GPU…
- wikiLogits processors
…генерации. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- wikiInference engine
…GPU. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- wikiMax sequence length
…инференсе. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- wikiTensorRT Plugin API
…функциональность. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- wikiRay Serve
…инференса. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- wikiConcurrent requests
…перегрузке LLM сервера]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- wikiTensorRT-LLM
…в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- wikidynamic shapes
…Graph). ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- wikioperator optimization
# operator optimization ## Определение Операторные оптимизации в TensorRT-LLM, направленные на ускорение инференса за счёт слияния и перестановки операций. ## Где встречается…
- wikiPlan
# Plan ## Определение Структурированная последовательность шагов, выполняемая агентом для достижения цели, или бинарный файл оптимизированной модели TensorRT-LLM после сборки. ## Где…
- wikiCUDA graphs
…ускоряют LLM инференс]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- wikisequence slots
# sequence slots ## Определение Механизм в TensorRT-LLM для параллельной обработки множества запросов путём выделения фиксированных слотов под последовательности. Позволяет эффективно…
- wikiLinalg
# Linalg ## Определение Диалект MLIR, предоставляющий операции линейной алгебры, используемый для оптимизации вычислений в фреймворках вроде TensorRT-LLM. ## Где встречается - [[317…
- wikiIn-place rollback
…без копирования данных, применяется в оптимизированных инференс-движках (vLLM, TensorRT-LLM). ## Где встречается - [[159. Как speculative decoding взаимодействует с KV…
- wikiDialect
…Позволяет строить многоуровневые оптимизации, как в IREE и TensorRT-LLM. ## Где встречается - [[317. Что такое MLIR и как он используется…
- answerЧто такое ONNX Runtime и когда он выгоден для LLM?
…Поддерживает FP16, INT8 | | [[Вики/TensorRT-LLM\|TensorRT]] | NVIDIA GPU | Дополнительная оптимизация через TensorRT (слияние слоёв, kernel auto-tuning) | | [[Вики/DirectML…
- wikisampling
…RAG → LLM → user]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- wikipadded sequences
…влияет на attention]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- wikistatic batching
…инференсом для LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- wikiTriton Inference Server
…в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- wikiGPTQ
…в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- answerЧто такое FP8 инференс на H100 (Transformer Engine)?
…Практические рекомендации и пример кода Для включения FP8 инференса на H100 можно использовать: - [[Вики/TensorRT-LLM\|TensorRT-LLM]] — оптимизированный движок…
- wikiAWQ
…в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- wikiHugging Face
…на 10M документов]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- answerЧто такое CUDA graphs и как они ускоряют LLM инференс?
…автоматически захватывает графы для каждого размера блока (block size) и переиспользует их при [[Вики/continuous batching\|continuous batching]]. - [[Вики/TensorRT…
- wikiKubernetes
…instances в облаке]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- wikikernel fusion
…в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- answerКак работает Torch Compile (torch.compile) и в чем его ограничения для LLM?
…Что такое MIG (Multi-Instance GPU) и когда он полезен для LLM\|315]] | Оптимизация инференса LLM (vLLM, TensorRT-LLM) | | [[317…
- answerЧто такое operator fusion в компиляторах и какие паттерны fusion существуют?
…Паттерны operator fusion Существует несколько основных паттернов, которые компиляторы ([[Вики/Apache TVM\|TVM]], [[Вики/XLA\|XLA]], [[Вики/TensorRT-LLM\|TensorRT…
- answerЧто такое kernel fusion и как он применяется в LLM serving?
…fusion) и fused kernels для быстрого serving. - [[Вики/TensorRT-LLM\|TensorRT-LLM]] — компилирует модели с автоматическим fusion. - [[Вики/xFormers\|xFormers…
- wikiDocker
…DOCX) в production]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- answerКак вы деплоите speculative decoding в production?
…Рекомендация для production Используйте библиотеки, которые уже реализуют speculative decoding с оптимизированным KV cache (например, vLLM, TensorRT-LLM). Ручная реализация…
- answerКак speculative decoding взаимодействует с KV cache?
…в некоторых фреймворках (vLLM, [[Вики/TensorRT-LLM\|TensorRT-LLM]]) [[Вики/KV-cache\|KV cache]] хранится в виде списка тензоров, и…
- answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
…Особенности: - [[Вики/GPU\|GPU]]‑only (оптимизирован для [[Вики/CUDA\|CUDA]]‑ядер, например, через [[Вики/Marlin kernel\|Marlin]] или [[Вики/TensorRT…
- wikiTensor parallelism
…на DGX H100]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Оптимизации для H100 - [[Вики/TensorRT-LLM\|TensorRT-LLM]]: фреймворк для инференса, использующий Tensor Cores и FP8. Даёт прирост до 2x…
- answerКак работают CUDA graphs и когда их использовать?
…Ускорение в LLM инференсе Практические фреймворки ([[Вики/Paged Attention\|vLLM]], [[Вики/TensorRT-LLM\|TensorRT-LLM]]) активно используют [[Вики/CUDA graphs…
- wikiPrometheus
…в ingestion пайплайне]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- answerЧто такое KV cache reuse в multi-turn диалогах и как его реализовать?
…в реальных фреймворках ([[Вики/Paged Attention\|vLLM]], [[Вики/TensorRT-LLM\|TensorRT-LLM]]) [[Вики/cache_control\|управление кэшем]] встроено и оптимизировано…
- answerКак вы разворачиваете LLM в production (self-hosted)?
…в управлении памятью, чем vLLM | | [[Вики/TensorRT-LLM\|TensorRT-LLM]] | NVIDIA | [[Вики/TensorRT-LLM\|TensorRT]] оптимизации, поддержка многопоточности, [[Вики/continuous…
- wikithroughput
…multi-GPU инференсе]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- wikiVLLM
…ускоряют LLM инференс]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- wikiPaged Attention
…в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- wikicontinuous batching
…в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…
- answerЧто такое TVM (Apache TVM) и зачем он нужен для AI инференса?
…Сравнение с другими подходами | Инструмент | Тип | Преимущества | Недостатки | |------------|-----|--------------|------------| | [[Вики/TensorRT-LLM\|TensorRT]] | Оптимизатор NVIDIA | Высокая производительность на NVIDIA GPU, поддержка…