Поиск

  • wikimembership inference attack

    # membership inference attack ## Определение Membership inference attack (MIA) — атака, определяющая, был ли конкретный элемент данных в обучающем наборе модели, часто…

  • wikiInference scheduler

    …Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] - [[Практика|Практика]] - [[800+ вопросов|800…

  • wiki4-bit inference

    # 4-bit inference ## Определение Инференс модели с весами, квантованными до 4 бит. Может быть медленнее 8-bit при малых batch…

  • wiki8-bit inference

    # 8-bit inference ## Определение Инференс модели с весами, отквантованными до 8 бит. В некоторых случаях может быть медленнее 4-битного…

  • wikiinference-time scaling

    …Настроить inference-time scaling|68. Настроить inference-time scaling]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikiInference cost

    # Inference cost ## Определение затраты на выполнение инференса; сравнивается до и после fine-tuning для расчёта ROI ## Где встречается - [[801. Как…

  • wikiFailed inference

    # Failed inference ## Определение Неудачный инференс (failed inference) — запросы на инференс, завершившиеся ошибкой и направляемые в очередь недоставленных сообщений (DLQ) для…

  • wikiinference

    # inference ## Определение Скорость генерации ответа; fine-tuning обычно быстрее, RAG медленнее из-за retrieval. ## Где встречается - [[78. Какие LLM для…

  • wikiinference_mode

    # inference_mode ## Определение Контекстный менеджер PyTorch, отключающий autograd для ускорения инференса и снижения потребления памяти. ## Где встречается - [[51. Развернуть Mamba…

  • wikiOpenAI Triton Inference Server

    # OpenAI Triton Inference Server ## Определение Сервер инференса, позволяющий реализовать кастомные планировщики для continuous batching и оптимизации вывода моделей. ## Где встречается…

  • wikiautoscaling inference

    # autoscaling inference ## Определение Автоматическое добавление или удаление реплик LLM на основе текущей нагрузки для эффективного использования ресурсов и баланса между…

  • wikiInference server

    # Inference server ## Определение сервер, выполняющий запуск LLM для обработки запросов, в каждом регионе свой набор ## Где встречается - [[247. Как вы…

  • wikiCPU inference

    # CPU inference ## Определение Запуск инференса модели на CPU без GPU, актуальный для сценариев с ограниченными ресурсами. ## Где встречается - [[Практика|Практика…

  • wikiinference time

    # inference time ## Определение Время, затрачиваемое моделью на генерацию ответа для одного запроса, включая префилл и декодинг токенов. ## Где встречается - [[800…

  • wikiHugging Face Inference API

    # Hugging Face Inference API ## Определение API для развёртывания и вызова моделей Hugging Face, включая LoRA-модели для function calling. ## Где…

  • wikiLLM inference

    # LLM inference ## Определение Процесс генерации ответа языковой моделью на основе входного промпта; включает токенизацию, прямой проход по сети и декодирование…

  • wikiDP Inference

    # DP Inference ## Определение Добавление шума в выходные логиты для защиты приватности на этапе вывода модели. ## Где встречается - [[620. Что такое…

  • wikiLLM inference cluster

    # LLM inference cluster ## Определение Кластер серверов, развёрнутых для выполнения инференса LLM, часто распределённый по регионам для низкой задержки и высокой…

  • wikishadow model

    …Как работает membership inference атака на LLM|357. Как работает membership inference атака на LLM]] - [[602. Как работает membership inference

  • wikipreemption

    …Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] - [[Практика|Практика]] - [[800+ вопросов|800…

  • wikionline inference

    # online inference ## Определение Синхронный инференс с низкой задержкой (<500ms) для real-time взаимодействия, требует постоянной доступности и часто использует on…

  • wikimulti-GPU inference

    # multi-GPU inference ## Определение Запуск модели на нескольких GPU для уменьшения задержки или увеличения пропускной способности; при tensor parallelism узким…

  • wikiInference engine

    # Inference engine ## Определение Программная платформа для оптимизации выполнения модели на GPU. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для…

  • wikiGPU Inference

    # GPU Inference ## Определение Процесс выполнения предсказаний обученной модели на GPU. Является основным источником вычислительных затрат для LLM-продуктов. ## Где встречается…

  • wikiData extraction

    # Data extraction ## Определение Атака на LLM, предшествующая membership inference, с целью извлечения заученного текста из модели. ## Где встречается - [[602. Как…

  • wikiinference-time gradient descent

    # inference-time gradient descent ## Определение Метод оптимизации, при котором градиенты вычисляются и применяются во время инференса для улучшения качества ответа…

  • answerПочему LLM inference memory-bound, а не compute-bound?

    Хорошо, я подготовлю разбор вопроса 431 «Почему [[Вики/LLM\|LLM]] [[Вики/inference\|inference]] [[Вики/memory-bound\|memory-bound]], а не…

  • wikilarge batch inference

    # large batch inference ## Определение Режим инференса, при котором модели подаются большие батчи запросов для повышения пропускной способности. Однако такая конфигурация…

  • wikiLikelihood ratio

    # Likelihood ratio ## Определение Отношение правдоподобия, используемое в атаках membership inference (LiRA) для различения данных, использованных при обучении, и новых данных…

  • wikiMemory-efficient inference

    # Memory-efficient inference ## Определение Методы снижения потребления памяти при инференсе моделей, позволяющие запускать крупные модели на оборудовании с ограниченной памятью…

  • wikiPrivacy attacks

    # Privacy attacks ## Определение Класс атак на модель, направленных на извлечение конфиденциальных данных, включающий membership inference, data extraction и другие. ## Где…

  • wikiprobabilities

    # probabilities ## Определение Результат softmax, нормированные значения; члены тренировочного набора имеют более высокие вероятности правильного класса (используются в membership inference). ## Где…

  • wikiInference attack

    # Inference attack ## Определение теоретическая возможность восстановить векторы другого тенанта ## Где встречается - [[123. Как вы защищаете RAG-систему от утечки данных…

  • wikitoken leakage

    # token leakage ## Определение Атака через выходные токены, связанная с membership inference для LLM, позволяющая злоумышленнику извлечь информацию о данных обучения…

  • wikisoft label

    …Как работает membership inference через logits (разница в вероятностях)|622. Как работает membership inference через logits (разница в вероятностях)]] ## Навигация…

  • wikistatic batching

    …Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)|836. Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)]] - [[843…

  • wikiDeepSpeed Inference

    # DeepSpeed Inference ## Определение Компонент DeepSpeed для автоматического выбора tensor/pipeline parallelism на основе профилирования для ускорения инференса. ## Где встречается - [[203…

  • wikiReference-based attack

    # Reference-based attack ## Определение Метод атаки на членство (membership inference attack), использующий теневые модели и классификатор для определения, входили ли…

  • wikiburst

    …Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] - [[219. Сравнить inference schedulers (FCFS…

  • wikiDeficit round robin

    # Deficit round robin ## Определение Алгоритм справедливой очереди с дефицитом, используемый в inference schedulers для честного распределения ресурсов между запросами. Позволяет…

  • wikiMLPerf Inference

    # MLPerf Inference ## Определение Промышленный бенчмарк для измерения производительности инференса ML-моделей по метрикам латентности и пропускной способности (throughput). ## Где встречается…

  • wikiLaplace noise

    # Laplace noise ## Определение Шум, распределённый по Лапласу, используемый для защиты логитов LLM от атак membership inference. Добавление такого шума затрудняет…

  • wikioffline batch inference

    # offline batch inference ## Определение Режим инференса, при котором запросы обрабатываются батчами без реального времени, часто с сортировкой по длине для…

  • wikiAutoregressive inference

    # Autoregressive inference ## Определение Этап генерации токенов один за другим во время инференса LLM, стандартный для авторегрессионных моделей, в отличие от…

  • wikiMemorization vs. generalization trade-off

    …Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiAWS EC2

    …Сравнить spot vs on-demand для batch inference|73. Сравнить spot vs on-demand для batch inference]] - [[76. Настроить reserved…

  • wikicompute-bound

    …Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[436…

  • wikiNon-autoregressive inference

    # Non-autoregressive inference ## Определение Метод генерации всех выходных токенов за один прямой проход модели, в отличие от последовательного декодирования. Позволяет…

  • wikiMemory Bandwidth

    …Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[435…

  • wikiLikelihood Ratio Attack

    # Likelihood Ratio Attack ## Определение Продвинутая атака membership inference, основанная на вычислении отношения правдоподобия с помощью теневых моделей для обнаружения contamination…