Поиск

  • wikionline inference

    # online inference ## Определение Синхронный инференс с низкой задержкой (<500ms) для real-time взаимодействия, требует постоянной доступности и часто использует on…

  • wikiNCCL

    # NCCL ## Определение Библиотека NVIDIA для коллективных коммуникаций между GPU, критичная для multi-GPU инференса и обучения. ## Где встречается - [[307. Как…

  • wikiColumn-wise

    # Column-wise ## Определение Способ разрезания матрицы весов по столбцам при реализации tensor parallelism, используемый как в инференсе, так и в…

  • wikiAutoregressive inference

    # Autoregressive inference ## Определение Этап генерации токенов один за другим во время инференса LLM, стандартный для авторегрессионных моделей, в отличие от…

  • wikiAllGather

    …Как PCIe bottleneck проявляется в multi-GPU инференсе|307. Как PCIe bottleneck проявляется в multi-GPU инференсе]] - [[402. Что такое…

  • wikiNon-autoregressive inference

    …Позволяет значительно ускорить инференс, но может снизить качество. ## Где встречается - [[436. В чем разница между prefill и decode stage в…

  • wikiQuantization-aware training

    …Что такое Quasar и как quantized verification ускоряет инференс|162. Что такое Quasar и как quantized verification ускоряет инференс]] - [[458…

  • wikite.Linear

    # te.Linear ## Определение Линейный слой из Transformer Engine, поддерживающий FP8 вычисления для ускоренного инференса. ## Где встречается - [[214. Реализовать FP8 инференс

  • wikiRow-wise

    …Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM…

  • wikiMARGIN-режим

    # MARGIN-режим ## Определение Режим калибровки FP8 инференса, который контролирует запас точности при квантизации. ## Где встречается - [[214. Реализовать FP8 инференс на…

  • wikiTransformer Engine

    …Что такое TVM (Apache TVM) и зачем он нужен для AI инференса]] - [[458. Что такое FP8 инференс на H100 (Transformer…

  • wikiFailed inference

    # Failed inference ## Определение Неудачный инференс (failed inference) — запросы на инференс, завершившиеся ошибкой и направляемые в очередь недоставленных сообщений (DLQ) для…

  • wikimulti-GPU inference

    …Как PCIe bottleneck проявляется в multi-GPU инференсе|307. Как PCIe bottleneck проявляется в multi-GPU инференсе]] - [[697. Как вы…

  • wikiOMP_NUM_THREADS

    # OMP_NUM_THREADS ## Определение Переменная окружения, задающая количество потоков OpenMP для параллельных вычислений, используется для оптимизации инференса моделей. ## Где встречается…

  • wikite.LayerNorm

    # te.LayerNorm ## Определение Реализация слоя нормализации из библиотеки Transformer Engine, оптимизированная для вычислений в FP16 и FP8 при инференсе. ## Где…

  • wikiAllReduce

    …Как PCIe bottleneck проявляется в multi-GPU инференсе|307. Как PCIe bottleneck проявляется в multi-GPU инференсе]] - [[310. Как вы…

  • wikiExLlama

    # ExLlama ## Определение Библиотека для быстрого инференса GPTQ-моделей на GPU, использующая оптимизированные ядра. ## Где встречается - [[443. GGUF vs GPTQ vs…

  • wikiquantlib

    # quantlib ## Определение Библиотека для эмуляции FP8-инференса на оборудовании, не поддерживающем аппаратный FP8 (например, на GPU без H100). Позволяет тестировать…

  • wikiLlama-3.1-70B

    # Llama-3.1-70B ## Определение Большая модель для batch инференса. ## Где встречается - [[220. Как вы выбираете между online и batch…

  • wikiRetry Topic

    …Как вы проектируете dead letter queue для failed LLM инференс запросов|240. Как вы проектируете dead letter queue для failed…

  • wikiConsumer Lag

    …Настроить distributed DLQ для failed инференса|204. Настроить distributed DLQ для failed инференса]] - [[255. Настроить correlation метрик|255. Настроить correlation…

  • wikiMXNet

    # MXNet ## Определение Apache MXNet — фреймворк глубокого обучения, поддерживаемый TVM для инференса. ## Где встречается - [[324. Что такое TVM (Apache TVM) и…

  • wikiMarlin kernel

    # Marlin kernel ## Определение Оптимизированное CUDA-ядро для ускорения инференса квантизированных моделей (AWQ, GPTQ) на GPU. ## Где встречается - [[443. GGUF vs…

  • wikiVulkan

    # Vulkan ## Определение Бэкенд TVM, использующий графический API Vulkan для инференса. ## Где встречается - [[324. Что такое TVM (Apache TVM) и зачем…

  • wikiJAX

    # JAX ## Определение Фреймворк от Google с JIT-компиляцией, применяемый для высокопроизводительных вычислений и инференса моделей. ## Где встречается - [[324. Что такое…

  • answerКак вы выбираете между online и batch инференсом для LLM?

    …Сравнение online и batch инференса | Характеристика | Online инференс | Batch инференс | |----------------|----------------|----------------| | Требования к latency | < 500 мс (часто < 100 мс) | Минуты–часы…

  • wikiFP8 Tensor Core

    …Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiLoRA merging

    # LoRA merging ## Определение Техника объединения нескольких LoRA-адаптеров в единый адаптер, что позволяет выполнять инференс без накладных расходов на переключение…

  • wikiNVLink

    …Как PCIe bottleneck проявляется в multi-GPU инференсе|307. Как PCIe bottleneck проявляется в multi-GPU инференсе]] - [[314. Как работает…

  • wikicuBLAS

    # cuBLAS ## Определение cuBLAS — оптимизированная библиотека NVIDIA для BLAS-операций на GPU, использующая Tensor Cores для ускорения матричных вычислений в инференсе

  • wikiBus utilization

    …Как PCIe bottleneck проявляется в multi-GPU инференсе|307. Как PCIe bottleneck проявляется в multi-GPU инференсе]] ## Навигация - [[00. Индекс…

  • wikismooth quantization

    # smooth quantization ## Определение Метод сглаживания выбросов в весах или активациях перед инференсом, позволяющий уменьшить потери точности при низкобитной квантизации, например…

  • wikiBLAS

    …Производительность BLAS влияет на скорость инференса ML-моделей на CPU. ## Где встречается - [[52. Настроить RWKV для инференса|52. Настроить RWKV…

  • wikiDeepSpeed Inference

    # DeepSpeed Inference ## Определение Компонент DeepSpeed для автоматического выбора tensor/pipeline parallelism на основе профилирования для ускорения инференса. ## Где встречается - [[203…

  • wikiVitis AI

    # Vitis AI ## Определение Бэкенд для Apache TVM, предназначенный для инференса моделей машинного обучения на FPGA от Xilinx. ## Где встречается - [[324…

  • wikitorch.compile

    # torch.compile ## Определение Графовый компилятор PyTorch, преобразующий eager-режим в оптимизированные вычислительные графы для ускорения инференса и обучения; поддерживает dynamic…

  • wikioff-peak scheduling

    # off-peak scheduling ## Определение Стратегия планирования batch-инференса на периоды с низкой стоимостью GPU, позволяющая снизить затраты. ## Где встречается - [[220…

  • wikiDNNL

    # DNNL ## Определение DNNL (oneDNN) — библиотека Intel для глубокого обучения, используемая в Apache TVM для оптимизации инференса на CPU. ## Где встречается…

  • wikiGLOO

    …Используется для multi-GPU инференса. ## Где встречается - [[402. Что такое NCCL и почему он критичен для multi-GPU инференса|402…

  • wikiэнергопотребление

    # энергопотребление ## Определение Метрика потребления энергии, особенно важная для мобильных и встраиваемых устройств, используемая при оценке эффективности инференса. ## Где встречается - [[324…

  • wikiinference

    …Настроить RWKV для инференса|52. Настроить RWKV для инференса]] - [[67. Реализовать latent reasoning (∇-Reasoner)|67. Реализовать latent reasoning (∇-Reasoner)]] - [[75…

  • wikiModel parallelism

    …Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[401. Как работает tensor parallelism для LLM инференса

  • wikiPipeline parallelism

    …Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете между online и batch инференсом для…

  • wikiLLM inference

    …В чем разница между prefill и decode stage в LLM инференсе|436. В чем разница между prefill и decode stage…

  • wikiV100

    # V100 ## Определение Графический процессор NVIDIA с NVLink 2.0 (300 ГБ/с), исторически применявшийся для ускорения инференса и обучения моделей…

  • wikiCUDA

    # CUDA ## Определение CUDA (Compute Unified Device Architecture) — платформа параллельных вычислений NVIDIA для программирования GPU, применяемая для ускорения инференса LLM и…

  • wikiWeight-only quantization

    …Что такое Quasar и как quantized verification ускоряет инференс|162. Что такое Quasar и как quantized verification ускоряет инференс]] ## Навигация…

  • wikimemory footprint

    # memory footprint ## Определение Объём оперативной памяти (RAM или GPU RAM), потребляемый моделью или индексом во время инференса. Ключевая метрика для…

  • wikiFIFO queue

    …Как вы проектируете dead letter queue для failed LLM инференс запросов|407. Как вы проектируете dead letter queue для failed…

  • wikiMetal

    # Metal ## Определение Бэкенд компилятора TVM для инференса нейросетей на GPU Apple (M1, M2, A-серия), оптимизированный под macOS и iOS…