Поиск

wikimembership inference attack
# membership inference attack ## Определение Membership inference attack (MIA) — атака, определяющая, был ли конкретный элемент данных в обучающем наборе модели, часто…
wikiInference scheduler
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] - [[Практика|Практика]] - [[800+ вопросов|800…
wiki4-bit inference
# 4-bit inference ## Определение Инференс модели с весами, квантованными до 4 бит. Может быть медленнее 8-bit при малых batch…
wiki8-bit inference
# 8-bit inference ## Определение Инференс модели с весами, отквантованными до 8 бит. В некоторых случаях может быть медленнее 4-битного…
wikiinference-time scaling
…Настроить inference-time scaling|68. Настроить inference-time scaling]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
wikiInference cost
# Inference cost ## Определение затраты на выполнение инференса; сравнивается до и после fine-tuning для расчёта ROI ## Где встречается - [[801. Как…
wikiFailed inference
# Failed inference ## Определение Неудачный инференс (failed inference) — запросы на инференс, завершившиеся ошибкой и направляемые в очередь недоставленных сообщений (DLQ) для…
wikiinference
# inference ## Определение Скорость генерации ответа; fine-tuning обычно быстрее, RAG медленнее из-за retrieval. ## Где встречается - [[78. Какие LLM для…
wikiinference_mode
# inference_mode ## Определение Контекстный менеджер PyTorch, отключающий autograd для ускорения инференса и снижения потребления памяти. ## Где встречается - [[51. Развернуть Mamba…
wikiOpenAI Triton Inference Server
# OpenAI Triton Inference Server ## Определение Сервер инференса, позволяющий реализовать кастомные планировщики для continuous batching и оптимизации вывода моделей. ## Где встречается…
wikiautoscaling inference
# autoscaling inference ## Определение Автоматическое добавление или удаление реплик LLM на основе текущей нагрузки для эффективного использования ресурсов и баланса между…
wikiInference server
# Inference server ## Определение сервер, выполняющий запуск LLM для обработки запросов, в каждом регионе свой набор ## Где встречается - [[247. Как вы…
wikiCPU inference
# CPU inference ## Определение Запуск инференса модели на CPU без GPU, актуальный для сценариев с ограниченными ресурсами. ## Где встречается - [[Практика|Практика…
wikiinference time
# inference time ## Определение Время, затрачиваемое моделью на генерацию ответа для одного запроса, включая префилл и декодинг токенов. ## Где встречается - [[800…
wikiHugging Face Inference API
# Hugging Face Inference API ## Определение API для развёртывания и вызова моделей Hugging Face, включая LoRA-модели для function calling. ## Где…
wikiLLM inference
# LLM inference ## Определение Процесс генерации ответа языковой моделью на основе входного промпта; включает токенизацию, прямой проход по сети и декодирование…
wikiDP Inference
# DP Inference ## Определение Добавление шума в выходные логиты для защиты приватности на этапе вывода модели. ## Где встречается - [[620. Что такое…
wikiLLM inference cluster
# LLM inference cluster ## Определение Кластер серверов, развёрнутых для выполнения инференса LLM, часто распределённый по регионам для низкой задержки и высокой…
wikishadow model
…Как работает membership inference атака на LLM|357. Как работает membership inference атака на LLM]] - [[602. Как работает membership inference…
wikipreemption
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] - [[Практика|Практика]] - [[800+ вопросов|800…
wikionline inference
# online inference ## Определение Синхронный инференс с низкой задержкой (<500ms) для real-time взаимодействия, требует постоянной доступности и часто использует on…
wikimulti-GPU inference
# multi-GPU inference ## Определение Запуск модели на нескольких GPU для уменьшения задержки или увеличения пропускной способности; при tensor parallelism узким…
wikiInference engine
# Inference engine ## Определение Программная платформа для оптимизации выполнения модели на GPU. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для…
wikiGPU Inference
# GPU Inference ## Определение Процесс выполнения предсказаний обученной модели на GPU. Является основным источником вычислительных затрат для LLM-продуктов. ## Где встречается…
wikiData extraction
# Data extraction ## Определение Атака на LLM, предшествующая membership inference, с целью извлечения заученного текста из модели. ## Где встречается - [[602. Как…
wikiinference-time gradient descent
# inference-time gradient descent ## Определение Метод оптимизации, при котором градиенты вычисляются и применяются во время инференса для улучшения качества ответа…
answerПочему LLM inference memory-bound, а не compute-bound?
Хорошо, я подготовлю разбор вопроса 431 «Почему [[Вики/LLM\|LLM]] [[Вики/inference\|inference]] [[Вики/memory-bound\|memory-bound]], а не…
wikilarge batch inference
# large batch inference ## Определение Режим инференса, при котором модели подаются большие батчи запросов для повышения пропускной способности. Однако такая конфигурация…
wikiLikelihood ratio
# Likelihood ratio ## Определение Отношение правдоподобия, используемое в атаках membership inference (LiRA) для различения данных, использованных при обучении, и новых данных…
wikiMemory-efficient inference
# Memory-efficient inference ## Определение Методы снижения потребления памяти при инференсе моделей, позволяющие запускать крупные модели на оборудовании с ограниченной памятью…
wikiPrivacy attacks
# Privacy attacks ## Определение Класс атак на модель, направленных на извлечение конфиденциальных данных, включающий membership inference, data extraction и другие. ## Где…
wikiprobabilities
# probabilities ## Определение Результат softmax, нормированные значения; члены тренировочного набора имеют более высокие вероятности правильного класса (используются в membership inference). ## Где…
wikiInference attack
# Inference attack ## Определение теоретическая возможность восстановить векторы другого тенанта ## Где встречается - [[123. Как вы защищаете RAG-систему от утечки данных…
wikitoken leakage
# token leakage ## Определение Атака через выходные токены, связанная с membership inference для LLM, позволяющая злоумышленнику извлечь информацию о данных обучения…
wikisoft label
…Как работает membership inference через logits (разница в вероятностях)|622. Как работает membership inference через logits (разница в вероятностях)]] ## Навигация…
wikistatic batching
…Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)|836. Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)]] - [[843…
wikiDeepSpeed Inference
# DeepSpeed Inference ## Определение Компонент DeepSpeed для автоматического выбора tensor/pipeline parallelism на основе профилирования для ускорения инференса. ## Где встречается - [[203…
wikiReference-based attack
# Reference-based attack ## Определение Метод атаки на членство (membership inference attack), использующий теневые модели и классификатор для определения, входили ли…
wikiburst
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] - [[219. Сравнить inference schedulers (FCFS…
wikiDeficit round robin
# Deficit round robin ## Определение Алгоритм справедливой очереди с дефицитом, используемый в inference schedulers для честного распределения ресурсов между запросами. Позволяет…
wikiMLPerf Inference
# MLPerf Inference ## Определение Промышленный бенчмарк для измерения производительности инференса ML-моделей по метрикам латентности и пропускной способности (throughput). ## Где встречается…
wikiLaplace noise
# Laplace noise ## Определение Шум, распределённый по Лапласу, используемый для защиты логитов LLM от атак membership inference. Добавление такого шума затрудняет…
wikioffline batch inference
# offline batch inference ## Определение Режим инференса, при котором запросы обрабатываются батчами без реального времени, часто с сортировкой по длине для…
wikiAutoregressive inference
# Autoregressive inference ## Определение Этап генерации токенов один за другим во время инференса LLM, стандартный для авторегрессионных моделей, в отличие от…
wikiMemorization vs. generalization trade-off
…Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…
wikiAWS EC2
…Сравнить spot vs on-demand для batch inference|73. Сравнить spot vs on-demand для batch inference]] - [[76. Настроить reserved…
wikicompute-bound
…Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[436…
wikiNon-autoregressive inference
# Non-autoregressive inference ## Определение Метод генерации всех выходных токенов за один прямой проход модели, в отличие от последовательного декодирования. Позволяет…
wikiMemory Bandwidth
…Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[435…
wikiLikelihood Ratio Attack
# Likelihood Ratio Attack ## Определение Продвинутая атака membership inference, основанная на вычислении отношения правдоподобия с помощью теневых моделей для обнаружения contamination…