English translation is not available yet. Showing Russian content.
TensorRT-LLM
TensorRT-LLM
Определение
Библиотека от NVIDIA для оптимизации инференса LLM на GPU, использующая MLIR и операторные оптимизации. Обеспечивает высокую производительность для фиксированных batch/sequence размеров.
Где встречается
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 70. Как вы снижаете стоимость LLM в production на 50%+
- 157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
- 159. Как speculative decoding взаимодействует с KV cache
- 161. Как вы измеряете эффективность speculative decoding
- 164. Какие trade-offs между разными архитектурами speculative decoding
- 203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
- 206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать
- 210. Что такое chunked prefill и зачем он нужен
- 218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 220. Как вы выбираете между online и batch инференсом для LLM
- 244. Как вы проектируете backpressure в LLM serving системе
- 269. Как вы обрабатываете streaming данные для real-time RAG
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
- 303. Как работают Tensor Cores в H100B200 и для чего они нужны
- 311. Что такое CUDA graphs и как они ускоряют LLM инференс
- 317. Что такое MLIR и как он используется в IREETensorRT-LLM
- 318. TensorRT-LLM vs vLLM — сравнение для production deployment.
- 320. Что такое ONNX Runtime и когда он выгоден для LLM
- 322. Что такое operator fusion в компиляторах и какие паттерны fusion существуют
- 324. Что такое TVM (Apache TVM) и зачем он нужен для AI инференса
- 325. Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели
- 364. Как вы строите real-time voice agent с latency 500ms
- 370. Как вы проектируете систему для real-time video understanding (поток с камер)
- 433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
- 437. Почему decode stage плохо batchится
- 443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.
- 446. Что такое chunked prefill и зачем он нужен
- 447. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
- 452. Как вы управляете memory fragmentation при длительном раннинге LLM сервера
- 455. Как вы выбираете между online и batch инференсом для LLM
- 458. Что такое FP8 инференс на H100 (Transformer Engine)
- 459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
- 473. Что такое torch.compile и как он ускоряет training
- 631. Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)
- 642. Как вы реализуете KV cache для 1M токенов на 8x H100
- 648. Что такое streaming LLM для бесконечного контекста (техника rollback)
- 697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)
- 708. Что такое MIG (Multi-Instance GPU) и как настроить для разных LLM
- 709. NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving