TensorRT-LLM

Определение

Библиотека от NVIDIA для оптимизации инференса LLM на GPU, использующая MLIR и операторные оптимизации. Обеспечивает высокую производительность для фиксированных batch/sequence размеров.

Где встречается

61. Как вы разворачиваете LLM в production (self-hosted)
70. Как вы снижаете стоимость LLM в production на 50%+
157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
159. Как speculative decoding взаимодействует с KV cache
161. Как вы измеряете эффективность speculative decoding
164. Какие trade-offs между разными архитектурами speculative decoding
203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать
210. Что такое chunked prefill и зачем он нужен
218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
220. Как вы выбираете между online и batch инференсом для LLM
244. Как вы проектируете backpressure в LLM serving системе
269. Как вы обрабатываете streaming данные для real-time RAG
300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
303. Как работают Tensor Cores в H100B200 и для чего они нужны
311. Что такое CUDA graphs и как они ускоряют LLM инференс
317. Что такое MLIR и как он используется в IREETensorRT-LLM
318. TensorRT-LLM vs vLLM — сравнение для production deployment.
320. Что такое ONNX Runtime и когда он выгоден для LLM
322. Что такое operator fusion в компиляторах и какие паттерны fusion существуют
324. Что такое TVM (Apache TVM) и зачем он нужен для AI инференса
325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели
364. Как вы строите real-time voice agent с latency 500ms
370. Как вы проектируете систему для real-time video understanding (поток с камер)
433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
437. Почему decode stage плохо batchится
443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.
446. Что такое chunked prefill и зачем он нужен
447. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
452. Как вы управляете memory fragmentation при длительном раннинге LLM сервера
455. Как вы выбираете между online и batch инференсом для LLM
458. Что такое FP8 инференс на H100 (Transformer Engine)
459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
473. Что такое torch.compile и как он ускоряет training
631. Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)
642. Как вы реализуете KV cache для 1M токенов на 8x H100
648. Что такое streaming LLM для бесконечного контекста (техника rollback)
697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)
708. Что такое MIG (Multi-Instance GPU) и как настроить для разных LLM
709. NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving

TensorRT-LLM

TensorRT-LLM

Определение

Где встречается

Навигация

TensorRT-LLM

TensorRT-LLM

Определение

Где встречается

Навигация