Поиск
- wikionline inference
…Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете между online и batch инференсом для…
- wikiNCCL
…Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM…
- wikiColumn-wise
…Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM…
- wikiAutoregressive inference
# Autoregressive inference ## Определение Этап генерации токенов один за другим во время инференса LLM, стандартный для авторегрессионных моделей, в отличие от…
- wikiLLM inference
…В чем разница между prefill и decode stage в LLM инференсе|436. В чем разница между prefill и decode stage…
- wikiRow-wise
…Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM…
- wikiinference
…инференса]] - [[430. Как вы делаете canary analysis для новой LLM модели|430. Как вы делаете canary analysis для новой LLM…
- wikiAllGather
…Как работает tensor parallelism для LLM training Чем отличается от инференса|423. Как работает tensor parallelism для LLM training Чем…
- wikiNon-autoregressive inference
…В чем разница между prefill и decode stage в LLM инференсе|436. В чем разница между prefill и decode stage…
- wikiPipeline parallelism
…Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[205. Как вы деплоите LLM с requirement 100ms…
- wikiRetry Topic
…Как вы проектируете dead letter queue для failed LLM инференс запросов|240. Как вы проектируете dead letter queue для failed…
- wikiTensor parallelism
…Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[205. Как вы деплоите LLM с requirement 100ms…
- wikiSentry
…Как вы проектируете dead letter queue для failed LLM инференс запросов]] - [[416. Как вы делаете load shedding при перегрузке LLM…
- wikiAllReduce
…Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM…
- wikiNVLink
…Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM…
- wikiData parallelism
# Data parallelism ## Определение Стратегия распределения данных по нескольким репликам модели для параллельного обучения или инференса. Для LLM инференса часто комбинируется…
- wikiModel parallelism
…Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[401. Как работает tensor parallelism для LLM инференса…
- wikiRay Serve
…TensorRT-LLM vs vLLM — сравнение для production deployment.]] - [[455. Как вы выбираете между online и batch инференсом для LLM|455…
- wikiCUDA
# CUDA ## Определение CUDA (Compute Unified Device Architecture) — платформа параллельных вычислений NVIDIA для программирования GPU, применяемая для ускорения инференса LLM и…
- wikiFIFO queue
…Как вы проектируете dead letter queue для failed LLM инференс запросов|407. Как вы проектируете dead letter queue для failed…
- wikiLlama-3.1-70B
…Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете между online и batch инференсом для…
- wikitorch.compile
…Что такое CUDA graphs и как они ускоряют LLM инференс|311. Что такое CUDA graphs и как они ускоряют LLM…
- wikiConsumer Lag
…Как вы проектируете dead letter queue для failed LLM инференс запросов|240. Как вы проектируете dead letter queue для failed…
- wikiQuantization
…Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете между online и batch инференсом для…
- wikiQuantization-aware training
…Что такое Quasar и как quantized verification ускоряет инференс|162. Что такое Quasar и как quantized verification ускоряет инференс]] - [[458…
- wikiVisibility Timeout
…Применяется в архитектурах dead‑letter queues для failed LLM‑инференс запросов. ## Где встречается - [[240. Как вы проектируете dead letter queue…
- wikiRedis Streams
…Как вы проектируете dead letter queue для failed LLM инференс запросов|240. Как вы проектируете dead letter queue для failed…
- wikiTensorRT-LLM
# TensorRT-LLM ## Определение Библиотека от NVIDIA для оптимизации инференса LLM на GPU, использующая MLIR и операторные оптимизации. Обеспечивает высокую производительность…
- wikiPCIe
…Как PCIe bottleneck проявляется в multi-GPU инференсе]] - [[401. Как работает tensor parallelism для LLM инференса В чем отличие от…
- wikimemory footprint
…Как работает tensor parallelism для LLM training Чем отличается от инференса|423. Как работает tensor parallelism для LLM training Чем…
- wikiDeepSpeed Inference
…Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.|203. Tensor parallelism vs pipeline parallelism vs data…
- wikioff-peak scheduling
…Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете между online и batch инференсом для…
- wikicuBLAS
…Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс|301. Как устроена иерархия…
- wikimicrobatches
…Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[401. Как работает tensor parallelism для LLM инференса…
- wikiforward pass
…Как работает tensor parallelism для LLM training Чем отличается от инференса|423. Как работает tensor parallelism для LLM training Чем…
- wikiGoogle Pub/Sub
…Как вы проектируете dead letter queue для failed LLM инференс запросов|240. Как вы проектируете dead letter queue для failed…
- wikiH100
# H100 ## Определение Графический процессор NVIDIA архитектуры Hopper с поддержкой FP8 через Transformer Engine и MIG, ключевой для инференса LLM. ## Где…
- wikiTransformer Engine
…Что такое TVM (Apache TVM) и зачем он нужен для AI инференса]] - [[458. Что такое FP8 инференс на H100 (Transformer…
- wikiPartition
…Как вы проектируете dead letter queue для failed LLM инференс запросов]] - [[419. Что такое Kafka compaction для логов LLM взаимодействий…
- wikiMistral-7B
…Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете между online и batch инференсом для…
- answerКак вы выбираете между online и batch инференсом для LLM?
…Как вы выбираете между online и batch инференсом для LLM? ## Краткий тезис Выбор между online и batch инференсом для LLM…
- wikiPayback period
…Как измерять ROI от fine-tuning (окупается ли дообучение более дешёвым инференсом)]] - [[784. Как строить финансовую модель LLM-продукта для…
- wikicalibration dataset
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[210. Сравнить GPTQ vs AWQ на reasoning задачах|210…
- wiki3D parallelism
…Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM…
- wikiKafka Streams
…Как вы проектируете dead letter queue для failed LLM инференс запросов|240. Как вы проектируете dead letter queue для failed…
- wikiReduceScatter
…Как работает tensor parallelism для LLM training Чем отличается от инференса|423. Как работает tensor parallelism для LLM training Чем…
- wikipipeline bubbles
…Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[401. Как работает tensor parallelism для LLM инференса…
- wikimemory-bound
…Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM…
- wikithroughput
# throughput ## Определение Метрика производительности, измеряющая количество обработанных запросов, токенов или сообщений в единицу времени; ключевая характеристика инференса LLM и систем…
- wikiPaged Attention
…Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[205. Как вы деплоите LLM с requirement 100ms…