Поиск

  • answerTensorRT-LLM vs vLLM — сравнение для production deployment?

    …Пример конфигурации для [[Вики/TensorRT-LLM\|TensorRT-LLM]] ```python # Пример запуска через TensorRT-LLM (упрощённо) from tensorrt_llm import LLM…

  • wikiCustom layers

    # Custom layers ## Определение Пользовательские слои модели, требующие специальных плагинов при развертывании в TensorRT-LLM. ## Где встречается - [[318. TensorRT-LLM vs…

  • wikiFixed shapes

    # Fixed shapes ## Определение Оптимизация инференса, при которой длина последовательности и размер батча фиксированы, что позволяет эффективно использовать TensorRT-LLM и…

  • answerКак вы деплоите LLM с TensorRT-LLM в production?

    …Как вы деплоите LLM с TensorRT-LLM в production? ## Краткий тезис [[Вики/TensorRT-LLM\|TensorRT-LLM]] — это библиотека от NVIDIA…

  • answerЧто такое MLIR и как он используется в IREE/TensorRT-LLM?

    TensorRT-LLM [[Вики/TensorRT-LLM\|TensorRT-LLM]] — это библиотека от NVIDIA для оптимизации инференса больших языковых моделей на [[Вики/GPU…

  • wikiLogits processors

    …генерации. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • wikiInference engine

    …GPU. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • wikiMax sequence length

    …инференсе. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • wikiTensorRT Plugin API

    …функциональность. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • wikiRay Serve

    …инференса. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • wikiConcurrent requests

    …перегрузке LLM сервера]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • wikiTensorRT-LLM

    …в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • wikidynamic shapes

    …Graph). ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • wikioperator optimization

    # operator optimization ## Определение Операторные оптимизации в TensorRT-LLM, направленные на ускорение инференса за счёт слияния и перестановки операций. ## Где встречается…

  • wikiPlan

    # Plan ## Определение Структурированная последовательность шагов, выполняемая агентом для достижения цели, или бинарный файл оптимизированной модели TensorRT-LLM после сборки. ## Где…

  • wikiCUDA graphs

    …ускоряют LLM инференс]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • wikisequence slots

    # sequence slots ## Определение Механизм в TensorRT-LLM для параллельной обработки множества запросов путём выделения фиксированных слотов под последовательности. Позволяет эффективно…

  • wikiLinalg

    # Linalg ## Определение Диалект MLIR, предоставляющий операции линейной алгебры, используемый для оптимизации вычислений в фреймворках вроде TensorRT-LLM. ## Где встречается - [[317…

  • wikiIn-place rollback

    …без копирования данных, применяется в оптимизированных инференс-движках (vLLM, TensorRT-LLM). ## Где встречается - [[159. Как speculative decoding взаимодействует с KV…

  • wikiDialect

    …Позволяет строить многоуровневые оптимизации, как в IREE и TensorRT-LLM. ## Где встречается - [[317. Что такое MLIR и как он используется…

  • answerЧто такое ONNX Runtime и когда он выгоден для LLM?

    …Поддерживает FP16, INT8 | | [[Вики/TensorRT-LLM\|TensorRT]] | NVIDIA GPU | Дополнительная оптимизация через TensorRT (слияние слоёв, kernel auto-tuning) | | [[Вики/DirectML…

  • wikisampling

    …RAG → LLM → user]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • wikipadded sequences

    …влияет на attention]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • wikistatic batching

    …инференсом для LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • wikiTriton Inference Server

    …в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • wikiGPTQ

    …в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • answerЧто такое FP8 инференс на H100 (Transformer Engine)?

    …Практические рекомендации и пример кода Для включения FP8 инференса на H100 можно использовать: - [[Вики/TensorRT-LLM\|TensorRT-LLM]] — оптимизированный движок…

  • wikiAWQ

    …в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • wikiHugging Face

    …на 10M документов]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • answerЧто такое CUDA graphs и как они ускоряют LLM инференс?

    …автоматически захватывает графы для каждого размера блока (block size) и переиспользует их при [[Вики/continuous batching\|continuous batching]]. - [[Вики/TensorRT

  • wikiKubernetes

    …instances в облаке]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • wikikernel fusion

    …в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • answerКак работает Torch Compile (torch.compile) и в чем его ограничения для LLM?

    …Что такое MIG (Multi-Instance GPU) и когда он полезен для LLM\|315]] | Оптимизация инференса LLM (vLLM, TensorRT-LLM) | | [[317…

  • answerЧто такое operator fusion в компиляторах и какие паттерны fusion существуют?

    …Паттерны operator fusion Существует несколько основных паттернов, которые компиляторы ([[Вики/Apache TVM\|TVM]], [[Вики/XLA\|XLA]], [[Вики/TensorRT-LLM\|TensorRT…

  • answerЧто такое kernel fusion и как он применяется в LLM serving?

    …fusion) и fused kernels для быстрого serving. - [[Вики/TensorRT-LLM\|TensorRT-LLM]] — компилирует модели с автоматическим fusion. - [[Вики/xFormers\|xFormers…

  • wikiDocker

    …DOCX) в production]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • answerКак вы деплоите speculative decoding в production?

    …Рекомендация для production Используйте библиотеки, которые уже реализуют speculative decoding с оптимизированным KV cache (например, vLLM, TensorRT-LLM). Ручная реализация…

  • answerКак speculative decoding взаимодействует с KV cache?

    …в некоторых фреймворках (vLLM, [[Вики/TensorRT-LLM\|TensorRT-LLM]]) [[Вики/KV-cache\|KV cache]] хранится в виде списка тензоров, и…

  • answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?

    …Особенности: - [[Вики/GPU\|GPU]]‑only (оптимизирован для [[Вики/CUDA\|CUDA]]‑ядер, например, через [[Вики/Marlin kernel\|Marlin]] или [[Вики/TensorRT

  • wikiTensor parallelism

    …на DGX H100]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?

    …Оптимизации для H100 - [[Вики/TensorRT-LLM\|TensorRT-LLM]]: фреймворк для инференса, использующий Tensor Cores и FP8. Даёт прирост до 2x…

  • answerКак работают CUDA graphs и когда их использовать?

    …Ускорение в LLM инференсе Практические фреймворки ([[Вики/Paged Attention\|vLLM]], [[Вики/TensorRT-LLM\|TensorRT-LLM]]) активно используют [[Вики/CUDA graphs…

  • wikiPrometheus

    …в ingestion пайплайне]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • answerЧто такое KV cache reuse в multi-turn диалогах и как его реализовать?

    …в реальных фреймворках ([[Вики/Paged Attention\|vLLM]], [[Вики/TensorRT-LLM\|TensorRT-LLM]]) [[Вики/cache_control\|управление кэшем]] встроено и оптимизировано…

  • answerКак вы разворачиваете LLM в production (self-hosted)?

    …в управлении памятью, чем vLLM | | [[Вики/TensorRT-LLM\|TensorRT-LLM]] | NVIDIA | [[Вики/TensorRT-LLM\|TensorRT]] оптимизации, поддержка многопоточности, [[Вики/continuous…

  • wikithroughput

    …multi-GPU инференсе]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • wikiVLLM

    …ускоряют LLM инференс]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • wikiPaged Attention

    …в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • wikicontinuous batching

    …в IREETensorRT-LLM]] - [[318. TensorRT-LLM vs vLLM — сравнение для production deployment.|318. TensorRT-LLM vs vLLM — сравнение для production…

  • answerЧто такое TVM (Apache TVM) и зачем он нужен для AI инференса?

    …Сравнение с другими подходами | Инструмент | Тип | Преимущества | Недостатки | |------------|-----|--------------|------------| | [[Вики/TensorRT-LLM\|TensorRT]] | Оптимизатор NVIDIA | Высокая производительность на NVIDIA GPU, поддержка…