Поиск

wikionline inference
…Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете между online и batch инференсом для…
wikiNCCL
…Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM…
wikiColumn-wise
…Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM…
wikiAutoregressive inference
# Autoregressive inference ## Определение Этап генерации токенов один за другим во время инференса LLM, стандартный для авторегрессионных моделей, в отличие от…
wikiLLM inference
…В чем разница между prefill и decode stage в LLM инференсе|436. В чем разница между prefill и decode stage…
wikiRow-wise
…Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM…
wikiinference
…инференса]] - [[430. Как вы делаете canary analysis для новой LLM модели|430. Как вы делаете canary analysis для новой LLM…
wikiAllGather
…Как работает tensor parallelism для LLM training Чем отличается от инференса|423. Как работает tensor parallelism для LLM training Чем…
wikiNon-autoregressive inference
…В чем разница между prefill и decode stage в LLM инференсе|436. В чем разница между prefill и decode stage…
wikiPipeline parallelism
…Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[205. Как вы деплоите LLM с requirement 100ms…
wikiRetry Topic
…Как вы проектируете dead letter queue для failed LLM инференс запросов|240. Как вы проектируете dead letter queue для failed…
wikiTensor parallelism
…Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[205. Как вы деплоите LLM с requirement 100ms…
wikiSentry
…Как вы проектируете dead letter queue для failed LLM инференс запросов]] - [[416. Как вы делаете load shedding при перегрузке LLM…
wikiAllReduce
…Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM…
wikiNVLink
…Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM…
wikiData parallelism
# Data parallelism ## Определение Стратегия распределения данных по нескольким репликам модели для параллельного обучения или инференса. Для LLM инференса часто комбинируется…
wikiModel parallelism
…Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[401. Как работает tensor parallelism для LLM инференса…
wikiRay Serve
…TensorRT-LLM vs vLLM — сравнение для production deployment.]] - [[455. Как вы выбираете между online и batch инференсом для LLM|455…
wikiCUDA
# CUDA ## Определение CUDA (Compute Unified Device Architecture) — платформа параллельных вычислений NVIDIA для программирования GPU, применяемая для ускорения инференса LLM и…
wikiFIFO queue
…Как вы проектируете dead letter queue для failed LLM инференс запросов|407. Как вы проектируете dead letter queue для failed…
wikiLlama-3.1-70B
…Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете между online и batch инференсом для…
wikitorch.compile
…Что такое CUDA graphs и как они ускоряют LLM инференс|311. Что такое CUDA graphs и как они ускоряют LLM…
wikiConsumer Lag
…Как вы проектируете dead letter queue для failed LLM инференс запросов|240. Как вы проектируете dead letter queue для failed…
wikiQuantization
…Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете между online и batch инференсом для…
wikiQuantization-aware training
…Что такое Quasar и как quantized verification ускоряет инференс|162. Что такое Quasar и как quantized verification ускоряет инференс]] - [[458…
wikiVisibility Timeout
…Применяется в архитектурах dead‑letter queues для failed LLM‑инференс запросов. ## Где встречается - [[240. Как вы проектируете dead letter queue…
wikiRedis Streams
…Как вы проектируете dead letter queue для failed LLM инференс запросов|240. Как вы проектируете dead letter queue для failed…
wikiTensorRT-LLM
# TensorRT-LLM ## Определение Библиотека от NVIDIA для оптимизации инференса LLM на GPU, использующая MLIR и операторные оптимизации. Обеспечивает высокую производительность…
wikiPCIe
…Как PCIe bottleneck проявляется в multi-GPU инференсе]] - [[401. Как работает tensor parallelism для LLM инференса В чем отличие от…
wikimemory footprint
…Как работает tensor parallelism для LLM training Чем отличается от инференса|423. Как работает tensor parallelism для LLM training Чем…
wikiDeepSpeed Inference
…Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.|203. Tensor parallelism vs pipeline parallelism vs data…
wikioff-peak scheduling
…Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете между online и batch инференсом для…
wikicuBLAS
…Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс|301. Как устроена иерархия…
wikimicrobatches
…Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[401. Как работает tensor parallelism для LLM инференса…
wikiforward pass
…Как работает tensor parallelism для LLM training Чем отличается от инференса|423. Как работает tensor parallelism для LLM training Чем…
wikiGoogle Pub/Sub
…Как вы проектируете dead letter queue для failed LLM инференс запросов|240. Как вы проектируете dead letter queue для failed…
wikiH100
# H100 ## Определение Графический процессор NVIDIA архитектуры Hopper с поддержкой FP8 через Transformer Engine и MIG, ключевой для инференса LLM. ## Где…
wikiTransformer Engine
…Что такое TVM (Apache TVM) и зачем он нужен для AI инференса]] - [[458. Что такое FP8 инференс на H100 (Transformer…
wikiPartition
…Как вы проектируете dead letter queue для failed LLM инференс запросов]] - [[419. Что такое Kafka compaction для логов LLM взаимодействий…
wikiMistral-7B
…Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете между online и batch инференсом для…
answerКак вы выбираете между online и batch инференсом для LLM?
…Как вы выбираете между online и batch инференсом для LLM? ## Краткий тезис Выбор между online и batch инференсом для LLM…
wikiPayback period
…Как измерять ROI от fine-tuning (окупается ли дообучение более дешёвым инференсом)]] - [[784. Как строить финансовую модель LLM-продукта для…
wikicalibration dataset
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[210. Сравнить GPTQ vs AWQ на reasoning задачах|210…
wiki3D parallelism
…Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM…
wikiKafka Streams
…Как вы проектируете dead letter queue для failed LLM инференс запросов|240. Как вы проектируете dead letter queue для failed…
wikiReduceScatter
…Как работает tensor parallelism для LLM training Чем отличается от инференса|423. Как работает tensor parallelism для LLM training Чем…
wikipipeline bubbles
…Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[401. Как работает tensor parallelism для LLM инференса…
wikimemory-bound
…Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM…
wikithroughput
# throughput ## Определение Метрика производительности, измеряющая количество обработанных запросов, токенов или сообщений в единицу времени; ключевая характеристика инференса LLM и систем…
wikiPaged Attention
…Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[205. Как вы деплоите LLM с requirement 100ms…