Поиск

wikionline inference
# online inference ## Определение Синхронный инференс с низкой задержкой (<500ms) для real-time взаимодействия, требует постоянной доступности и часто использует on…
wikiNCCL
# NCCL ## Определение Библиотека NVIDIA для коллективных коммуникаций между GPU, критичная для multi-GPU инференса и обучения. ## Где встречается - [[307. Как…
wikiColumn-wise
# Column-wise ## Определение Способ разрезания матрицы весов по столбцам при реализации tensor parallelism, используемый как в инференсе, так и в…
wikiAutoregressive inference
# Autoregressive inference ## Определение Этап генерации токенов один за другим во время инференса LLM, стандартный для авторегрессионных моделей, в отличие от…
wikiAllGather
…Как PCIe bottleneck проявляется в multi-GPU инференсе|307. Как PCIe bottleneck проявляется в multi-GPU инференсе]] - [[402. Что такое…
wikiNon-autoregressive inference
…Позволяет значительно ускорить инференс, но может снизить качество. ## Где встречается - [[436. В чем разница между prefill и decode stage в…
wikiQuantization-aware training
…Что такое Quasar и как quantized verification ускоряет инференс|162. Что такое Quasar и как quantized verification ускоряет инференс]] - [[458…
wikite.Linear
# te.Linear ## Определение Линейный слой из Transformer Engine, поддерживающий FP8 вычисления для ускоренного инференса. ## Где встречается - [[214. Реализовать FP8 инференс…
wikiRow-wise
…Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM…
wikiMARGIN-режим
# MARGIN-режим ## Определение Режим калибровки FP8 инференса, который контролирует запас точности при квантизации. ## Где встречается - [[214. Реализовать FP8 инференс на…
wikiTransformer Engine
…Что такое TVM (Apache TVM) и зачем он нужен для AI инференса]] - [[458. Что такое FP8 инференс на H100 (Transformer…
wikiFailed inference
# Failed inference ## Определение Неудачный инференс (failed inference) — запросы на инференс, завершившиеся ошибкой и направляемые в очередь недоставленных сообщений (DLQ) для…
wikimulti-GPU inference
…Как PCIe bottleneck проявляется в multi-GPU инференсе|307. Как PCIe bottleneck проявляется в multi-GPU инференсе]] - [[697. Как вы…
wikiOMP_NUM_THREADS
# OMP_NUM_THREADS ## Определение Переменная окружения, задающая количество потоков OpenMP для параллельных вычислений, используется для оптимизации инференса моделей. ## Где встречается…
wikite.LayerNorm
# te.LayerNorm ## Определение Реализация слоя нормализации из библиотеки Transformer Engine, оптимизированная для вычислений в FP16 и FP8 при инференсе. ## Где…
wikiAllReduce
…Как PCIe bottleneck проявляется в multi-GPU инференсе|307. Как PCIe bottleneck проявляется в multi-GPU инференсе]] - [[310. Как вы…
wikiExLlama
# ExLlama ## Определение Библиотека для быстрого инференса GPTQ-моделей на GPU, использующая оптимизированные ядра. ## Где встречается - [[443. GGUF vs GPTQ vs…
wikiquantlib
# quantlib ## Определение Библиотека для эмуляции FP8-инференса на оборудовании, не поддерживающем аппаратный FP8 (например, на GPU без H100). Позволяет тестировать…
wikiLlama-3.1-70B
# Llama-3.1-70B ## Определение Большая модель для batch инференса. ## Где встречается - [[220. Как вы выбираете между online и batch…
wikiRetry Topic
…Как вы проектируете dead letter queue для failed LLM инференс запросов|240. Как вы проектируете dead letter queue для failed…
wikiConsumer Lag
…Настроить distributed DLQ для failed инференса|204. Настроить distributed DLQ для failed инференса]] - [[255. Настроить correlation метрик|255. Настроить correlation…
wikiMXNet
# MXNet ## Определение Apache MXNet — фреймворк глубокого обучения, поддерживаемый TVM для инференса. ## Где встречается - [[324. Что такое TVM (Apache TVM) и…
wikiMarlin kernel
# Marlin kernel ## Определение Оптимизированное CUDA-ядро для ускорения инференса квантизированных моделей (AWQ, GPTQ) на GPU. ## Где встречается - [[443. GGUF vs…
wikiVulkan
# Vulkan ## Определение Бэкенд TVM, использующий графический API Vulkan для инференса. ## Где встречается - [[324. Что такое TVM (Apache TVM) и зачем…
wikiJAX
# JAX ## Определение Фреймворк от Google с JIT-компиляцией, применяемый для высокопроизводительных вычислений и инференса моделей. ## Где встречается - [[324. Что такое…
answerКак вы выбираете между online и batch инференсом для LLM?
…Сравнение online и batch инференса | Характеристика | Online инференс | Batch инференс | |----------------|----------------|----------------| | Требования к latency | < 500 мс (часто < 100 мс) | Минуты–часы…
wikiFP8 Tensor Core
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiLoRA merging
# LoRA merging ## Определение Техника объединения нескольких LoRA-адаптеров в единый адаптер, что позволяет выполнять инференс без накладных расходов на переключение…
wikiNVLink
…Как PCIe bottleneck проявляется в multi-GPU инференсе|307. Как PCIe bottleneck проявляется в multi-GPU инференсе]] - [[314. Как работает…
wikicuBLAS
# cuBLAS ## Определение cuBLAS — оптимизированная библиотека NVIDIA для BLAS-операций на GPU, использующая Tensor Cores для ускорения матричных вычислений в инференсе…
wikiBus utilization
…Как PCIe bottleneck проявляется в multi-GPU инференсе|307. Как PCIe bottleneck проявляется в multi-GPU инференсе]] ## Навигация - [[00. Индекс…
wikismooth quantization
# smooth quantization ## Определение Метод сглаживания выбросов в весах или активациях перед инференсом, позволяющий уменьшить потери точности при низкобитной квантизации, например…
wikiBLAS
…Производительность BLAS влияет на скорость инференса ML-моделей на CPU. ## Где встречается - [[52. Настроить RWKV для инференса|52. Настроить RWKV…
wikiDeepSpeed Inference
# DeepSpeed Inference ## Определение Компонент DeepSpeed для автоматического выбора tensor/pipeline parallelism на основе профилирования для ускорения инференса. ## Где встречается - [[203…
wikiVitis AI
# Vitis AI ## Определение Бэкенд для Apache TVM, предназначенный для инференса моделей машинного обучения на FPGA от Xilinx. ## Где встречается - [[324…
wikitorch.compile
# torch.compile ## Определение Графовый компилятор PyTorch, преобразующий eager-режим в оптимизированные вычислительные графы для ускорения инференса и обучения; поддерживает dynamic…
wikioff-peak scheduling
# off-peak scheduling ## Определение Стратегия планирования batch-инференса на периоды с низкой стоимостью GPU, позволяющая снизить затраты. ## Где встречается - [[220…
wikiDNNL
# DNNL ## Определение DNNL (oneDNN) — библиотека Intel для глубокого обучения, используемая в Apache TVM для оптимизации инференса на CPU. ## Где встречается…
wikiGLOO
…Используется для multi-GPU инференса. ## Где встречается - [[402. Что такое NCCL и почему он критичен для multi-GPU инференса|402…
wikiэнергопотребление
# энергопотребление ## Определение Метрика потребления энергии, особенно важная для мобильных и встраиваемых устройств, используемая при оценке эффективности инференса. ## Где встречается - [[324…
wikiinference
…Настроить RWKV для инференса|52. Настроить RWKV для инференса]] - [[67. Реализовать latent reasoning (∇-Reasoner)|67. Реализовать latent reasoning (∇-Reasoner)]] - [[75…
wikiModel parallelism
…Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[401. Как работает tensor parallelism для LLM инференса…
wikiPipeline parallelism
…Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете между online и batch инференсом для…
wikiLLM inference
…В чем разница между prefill и decode stage в LLM инференсе|436. В чем разница между prefill и decode stage…
wikiV100
# V100 ## Определение Графический процессор NVIDIA с NVLink 2.0 (300 ГБ/с), исторически применявшийся для ускорения инференса и обучения моделей…
wikiCUDA
# CUDA ## Определение CUDA (Compute Unified Device Architecture) — платформа параллельных вычислений NVIDIA для программирования GPU, применяемая для ускорения инференса LLM и…
wikiWeight-only quantization
…Что такое Quasar и как quantized verification ускоряет инференс|162. Что такое Quasar и как quantized verification ускоряет инференс]] ## Навигация…
wikimemory footprint
# memory footprint ## Определение Объём оперативной памяти (RAM или GPU RAM), потребляемый моделью или индексом во время инференса. Ключевая метрика для…
wikiFIFO queue
…Как вы проектируете dead letter queue для failed LLM инференс запросов|407. Как вы проектируете dead letter queue для failed…
wikiMetal
# Metal ## Определение Бэкенд компилятора TVM для инференса нейросетей на GPU Apple (M1, M2, A-серия), оптимизированный под macOS и iOS…