Поиск

  • wikionline inference

    …Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете между online и batch инференсом для…

  • wikiNCCL

    …Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM

  • wikiColumn-wise

    …Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM

  • wikiAutoregressive inference

    # Autoregressive inference ## Определение Этап генерации токенов один за другим во время инференса LLM, стандартный для авторегрессионных моделей, в отличие от…

  • wikiLLM inference

    …В чем разница между prefill и decode stage в LLM инференсе|436. В чем разница между prefill и decode stage…

  • wikiRow-wise

    …Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM

  • wikiinference

    инференса]] - [[430. Как вы делаете canary analysis для новой LLM модели|430. Как вы делаете canary analysis для новой LLM

  • wikiAllGather

    …Как работает tensor parallelism для LLM training Чем отличается от инференса|423. Как работает tensor parallelism для LLM training Чем…

  • wikiNon-autoregressive inference

    …В чем разница между prefill и decode stage в LLM инференсе|436. В чем разница между prefill и decode stage…

  • wikiPipeline parallelism

    …Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[205. Как вы деплоите LLM с requirement 100ms…

  • wikiRetry Topic

    …Как вы проектируете dead letter queue для failed LLM инференс запросов|240. Как вы проектируете dead letter queue для failed…

  • wikiTensor parallelism

    …Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[205. Как вы деплоите LLM с requirement 100ms…

  • wikiSentry

    …Как вы проектируете dead letter queue для failed LLM инференс запросов]] - [[416. Как вы делаете load shedding при перегрузке LLM

  • wikiAllReduce

    …Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM

  • wikiNVLink

    …Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM

  • wikiData parallelism

    # Data parallelism ## Определение Стратегия распределения данных по нескольким репликам модели для параллельного обучения или инференса. Для LLM инференса часто комбинируется…

  • wikiModel parallelism

    …Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[401. Как работает tensor parallelism для LLM инференса

  • wikiRay Serve

    …TensorRT-LLM vs vLLM — сравнение для production deployment.]] - [[455. Как вы выбираете между online и batch инференсом для LLM|455…

  • wikiCUDA

    # CUDA ## Определение CUDA (Compute Unified Device Architecture) — платформа параллельных вычислений NVIDIA для программирования GPU, применяемая для ускорения инференса LLM и…

  • wikiFIFO queue

    …Как вы проектируете dead letter queue для failed LLM инференс запросов|407. Как вы проектируете dead letter queue для failed…

  • wikiLlama-3.1-70B

    …Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете между online и batch инференсом для…

  • wikitorch.compile

    …Что такое CUDA graphs и как они ускоряют LLM инференс|311. Что такое CUDA graphs и как они ускоряют LLM

  • wikiConsumer Lag

    …Как вы проектируете dead letter queue для failed LLM инференс запросов|240. Как вы проектируете dead letter queue для failed…

  • wikiQuantization

    …Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете между online и batch инференсом для…

  • wikiQuantization-aware training

    …Что такое Quasar и как quantized verification ускоряет инференс|162. Что такое Quasar и как quantized verification ускоряет инференс]] - [[458…

  • wikiVisibility Timeout

    …Применяется в архитектурах dead‑letter queues для failed LLMинференс запросов. ## Где встречается - [[240. Как вы проектируете dead letter queue…

  • wikiRedis Streams

    …Как вы проектируете dead letter queue для failed LLM инференс запросов|240. Как вы проектируете dead letter queue для failed…

  • wikiTensorRT-LLM

    # TensorRT-LLM ## Определение Библиотека от NVIDIA для оптимизации инференса LLM на GPU, использующая MLIR и операторные оптимизации. Обеспечивает высокую производительность…

  • wikiPCIe

    …Как PCIe bottleneck проявляется в multi-GPU инференсе]] - [[401. Как работает tensor parallelism для LLM инференса В чем отличие от…

  • wikimemory footprint

    …Как работает tensor parallelism для LLM training Чем отличается от инференса|423. Как работает tensor parallelism для LLM training Чем…

  • wikiDeepSpeed Inference

    …Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.|203. Tensor parallelism vs pipeline parallelism vs data…

  • wikioff-peak scheduling

    …Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете между online и batch инференсом для…

  • wikicuBLAS

    …Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс|301. Как устроена иерархия…

  • wikimicrobatches

    …Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[401. Как работает tensor parallelism для LLM инференса

  • wikiforward pass

    …Как работает tensor parallelism для LLM training Чем отличается от инференса|423. Как работает tensor parallelism для LLM training Чем…

  • wikiGoogle Pub/Sub

    …Как вы проектируете dead letter queue для failed LLM инференс запросов|240. Как вы проектируете dead letter queue для failed…

  • wikiH100

    # H100 ## Определение Графический процессор NVIDIA архитектуры Hopper с поддержкой FP8 через Transformer Engine и MIG, ключевой для инференса LLM. ## Где…

  • wikiTransformer Engine

    …Что такое TVM (Apache TVM) и зачем он нужен для AI инференса]] - [[458. Что такое FP8 инференс на H100 (Transformer…

  • wikiPartition

    …Как вы проектируете dead letter queue для failed LLM инференс запросов]] - [[419. Что такое Kafka compaction для логов LLM взаимодействий…

  • wikiMistral-7B

    …Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете между online и batch инференсом для…

  • answerКак вы выбираете между online и batch инференсом для LLM?

    …Как вы выбираете между online и batch инференсом для LLM? ## Краткий тезис Выбор между online и batch инференсом для LLM

  • wikiPayback period

    …Как измерять ROI от fine-tuning (окупается ли дообучение более дешёвым инференсом)]] - [[784. Как строить финансовую модель LLM-продукта для…

  • wikicalibration dataset

    …Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[210. Сравнить GPTQ vs AWQ на reasoning задачах|210…

  • wiki3D parallelism

    …Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM

  • wikiKafka Streams

    …Как вы проектируете dead letter queue для failed LLM инференс запросов|240. Как вы проектируете dead letter queue для failed…

  • wikiReduceScatter

    …Как работает tensor parallelism для LLM training Чем отличается от инференса|423. Как работает tensor parallelism для LLM training Чем…

  • wikipipeline bubbles

    …Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[401. Как работает tensor parallelism для LLM инференса

  • wikimemory-bound

    …Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM

  • wikithroughput

    # throughput ## Определение Метрика производительности, измеряющая количество обработанных запросов, токенов или сообщений в единицу времени; ключевая характеристика инференса LLM и систем…

  • wikiPaged Attention

    …Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[205. Как вы деплоите LLM с requirement 100ms…