Поиск
- wikionline inference
# online inference ## Определение Синхронный инференс с низкой задержкой (<500ms) для real-time взаимодействия, требует постоянной доступности и часто использует on…
- wikiNCCL
# NCCL ## Определение Библиотека NVIDIA для коллективных коммуникаций между GPU, критичная для multi-GPU инференса и обучения. ## Где встречается - [[307. Как…
- wikiColumn-wise
# Column-wise ## Определение Способ разрезания матрицы весов по столбцам при реализации tensor parallelism, используемый как в инференсе, так и в…
- wikiAutoregressive inference
# Autoregressive inference ## Определение Этап генерации токенов один за другим во время инференса LLM, стандартный для авторегрессионных моделей, в отличие от…
- wikiAllGather
…Как PCIe bottleneck проявляется в multi-GPU инференсе|307. Как PCIe bottleneck проявляется в multi-GPU инференсе]] - [[402. Что такое…
- wikiNon-autoregressive inference
…Позволяет значительно ускорить инференс, но может снизить качество. ## Где встречается - [[436. В чем разница между prefill и decode stage в…
- wikiQuantization-aware training
…Что такое Quasar и как quantized verification ускоряет инференс|162. Что такое Quasar и как quantized verification ускоряет инференс]] - [[458…
- wikite.Linear
# te.Linear ## Определение Линейный слой из Transformer Engine, поддерживающий FP8 вычисления для ускоренного инференса. ## Где встречается - [[214. Реализовать FP8 инференс…
- wikiRow-wise
…Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism|401. Как работает tensor parallelism для LLM…
- wikiMARGIN-режим
# MARGIN-режим ## Определение Режим калибровки FP8 инференса, который контролирует запас точности при квантизации. ## Где встречается - [[214. Реализовать FP8 инференс на…
- wikiTransformer Engine
…Что такое TVM (Apache TVM) и зачем он нужен для AI инференса]] - [[458. Что такое FP8 инференс на H100 (Transformer…
- wikiFailed inference
# Failed inference ## Определение Неудачный инференс (failed inference) — запросы на инференс, завершившиеся ошибкой и направляемые в очередь недоставленных сообщений (DLQ) для…
- wikimulti-GPU inference
…Как PCIe bottleneck проявляется в multi-GPU инференсе|307. Как PCIe bottleneck проявляется в multi-GPU инференсе]] - [[697. Как вы…
- wikiOMP_NUM_THREADS
# OMP_NUM_THREADS ## Определение Переменная окружения, задающая количество потоков OpenMP для параллельных вычислений, используется для оптимизации инференса моделей. ## Где встречается…
- wikite.LayerNorm
# te.LayerNorm ## Определение Реализация слоя нормализации из библиотеки Transformer Engine, оптимизированная для вычислений в FP16 и FP8 при инференсе. ## Где…
- wikiAllReduce
…Как PCIe bottleneck проявляется в multi-GPU инференсе|307. Как PCIe bottleneck проявляется в multi-GPU инференсе]] - [[310. Как вы…
- wikiExLlama
# ExLlama ## Определение Библиотека для быстрого инференса GPTQ-моделей на GPU, использующая оптимизированные ядра. ## Где встречается - [[443. GGUF vs GPTQ vs…
- wikiquantlib
# quantlib ## Определение Библиотека для эмуляции FP8-инференса на оборудовании, не поддерживающем аппаратный FP8 (например, на GPU без H100). Позволяет тестировать…
- wikiLlama-3.1-70B
# Llama-3.1-70B ## Определение Большая модель для batch инференса. ## Где встречается - [[220. Как вы выбираете между online и batch…
- wikiRetry Topic
…Как вы проектируете dead letter queue для failed LLM инференс запросов|240. Как вы проектируете dead letter queue для failed…
- wikiConsumer Lag
…Настроить distributed DLQ для failed инференса|204. Настроить distributed DLQ для failed инференса]] - [[255. Настроить correlation метрик|255. Настроить correlation…
- wikiMXNet
# MXNet ## Определение Apache MXNet — фреймворк глубокого обучения, поддерживаемый TVM для инференса. ## Где встречается - [[324. Что такое TVM (Apache TVM) и…
- wikiMarlin kernel
# Marlin kernel ## Определение Оптимизированное CUDA-ядро для ускорения инференса квантизированных моделей (AWQ, GPTQ) на GPU. ## Где встречается - [[443. GGUF vs…
- wikiVulkan
# Vulkan ## Определение Бэкенд TVM, использующий графический API Vulkan для инференса. ## Где встречается - [[324. Что такое TVM (Apache TVM) и зачем…
- wikiJAX
# JAX ## Определение Фреймворк от Google с JIT-компиляцией, применяемый для высокопроизводительных вычислений и инференса моделей. ## Где встречается - [[324. Что такое…
- answerКак вы выбираете между online и batch инференсом для LLM?
…Сравнение online и batch инференса | Характеристика | Online инференс | Batch инференс | |----------------|----------------|----------------| | Требования к latency | < 500 мс (часто < 100 мс) | Минуты–часы…
- wikiFP8 Tensor Core
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiLoRA merging
# LoRA merging ## Определение Техника объединения нескольких LoRA-адаптеров в единый адаптер, что позволяет выполнять инференс без накладных расходов на переключение…
- wikiNVLink
…Как PCIe bottleneck проявляется в multi-GPU инференсе|307. Как PCIe bottleneck проявляется в multi-GPU инференсе]] - [[314. Как работает…
- wikicuBLAS
# cuBLAS ## Определение cuBLAS — оптимизированная библиотека NVIDIA для BLAS-операций на GPU, использующая Tensor Cores для ускорения матричных вычислений в инференсе…
- wikiBus utilization
…Как PCIe bottleneck проявляется в multi-GPU инференсе|307. Как PCIe bottleneck проявляется в multi-GPU инференсе]] ## Навигация - [[00. Индекс…
- wikismooth quantization
# smooth quantization ## Определение Метод сглаживания выбросов в весах или активациях перед инференсом, позволяющий уменьшить потери точности при низкобитной квантизации, например…
- wikiBLAS
…Производительность BLAS влияет на скорость инференса ML-моделей на CPU. ## Где встречается - [[52. Настроить RWKV для инференса|52. Настроить RWKV…
- wikiDeepSpeed Inference
# DeepSpeed Inference ## Определение Компонент DeepSpeed для автоматического выбора tensor/pipeline parallelism на основе профилирования для ускорения инференса. ## Где встречается - [[203…
- wikiVitis AI
# Vitis AI ## Определение Бэкенд для Apache TVM, предназначенный для инференса моделей машинного обучения на FPGA от Xilinx. ## Где встречается - [[324…
- wikitorch.compile
# torch.compile ## Определение Графовый компилятор PyTorch, преобразующий eager-режим в оптимизированные вычислительные графы для ускорения инференса и обучения; поддерживает dynamic…
- wikioff-peak scheduling
# off-peak scheduling ## Определение Стратегия планирования batch-инференса на периоды с низкой стоимостью GPU, позволяющая снизить затраты. ## Где встречается - [[220…
- wikiDNNL
# DNNL ## Определение DNNL (oneDNN) — библиотека Intel для глубокого обучения, используемая в Apache TVM для оптимизации инференса на CPU. ## Где встречается…
- wikiGLOO
…Используется для multi-GPU инференса. ## Где встречается - [[402. Что такое NCCL и почему он критичен для multi-GPU инференса|402…
- wikiэнергопотребление
# энергопотребление ## Определение Метрика потребления энергии, особенно важная для мобильных и встраиваемых устройств, используемая при оценке эффективности инференса. ## Где встречается - [[324…
- wikiinference
…Настроить RWKV для инференса|52. Настроить RWKV для инференса]] - [[67. Реализовать latent reasoning (∇-Reasoner)|67. Реализовать latent reasoning (∇-Reasoner)]] - [[75…
- wikiModel parallelism
…Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.]] - [[401. Как работает tensor parallelism для LLM инференса…
- wikiPipeline parallelism
…Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете между online и batch инференсом для…
- wikiLLM inference
…В чем разница между prefill и decode stage в LLM инференсе|436. В чем разница между prefill и decode stage…
- wikiV100
# V100 ## Определение Графический процессор NVIDIA с NVLink 2.0 (300 ГБ/с), исторически применявшийся для ускорения инференса и обучения моделей…
- wikiCUDA
# CUDA ## Определение CUDA (Compute Unified Device Architecture) — платформа параллельных вычислений NVIDIA для программирования GPU, применяемая для ускорения инференса LLM и…
- wikiWeight-only quantization
…Что такое Quasar и как quantized verification ускоряет инференс|162. Что такое Quasar и как quantized verification ускоряет инференс]] ## Навигация…
- wikimemory footprint
# memory footprint ## Определение Объём оперативной памяти (RAM или GPU RAM), потребляемый моделью или индексом во время инференса. Ключевая метрика для…
- wikiFIFO queue
…Как вы проектируете dead letter queue для failed LLM инференс запросов|407. Как вы проектируете dead letter queue для failed…
- wikiMetal
# Metal ## Определение Бэкенд компилятора TVM для инференса нейросетей на GPU Apple (M1, M2, A-серия), оптимизированный под macOS и iOS…