Поиск

  • wikimembership inference attack

    …Как работает membership inference атака на LLM|357. Как работает membership inference атака на LLM]] - [[488. Что такое benchmark contamination…

  • wikiinference

    # inference ## Определение Скорость генерации ответа; fine-tuning обычно быстрее, RAG медленнее из-за retrieval. ## Где встречается - [[78. Какие LLM для…

  • wikiLLM inference

    # LLM inference ## Определение Процесс генерации ответа языковой моделью на основе входного промпта; включает токенизацию, прямой проход по сети и декодирование…

  • wikiInference server

    # Inference server ## Определение сервер, выполняющий запуск LLM для обработки запросов, в каждом регионе свой набор ## Где встречается - [[247. Как вы…

  • wikiLLM inference cluster

    # LLM inference cluster ## Определение Кластер серверов, развёрнутых для выполнения инференса LLM, часто распределённый по регионам для низкой задержки и высокой…

  • wikiInference scheduler

    …Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] - [[Практика|Практика]] - [[800+ вопросов|800…

  • wikiautoscaling inference

    # autoscaling inference ## Определение Автоматическое добавление или удаление реплик LLM на основе текущей нагрузки для эффективного использования ресурсов и баланса между…

  • wikishadow model

    …Как работает membership inference атака на LLM|357. Как работает membership inference атака на LLM]] - [[602. Как работает membership inference

  • wikionline inference

    # online inference ## Определение Синхронный инференс с низкой задержкой (<500ms) для real-time взаимодействия, требует постоянной доступности и часто использует on…

  • wikiDP Inference

    # DP Inference ## Определение Добавление шума в выходные логиты для защиты приватности на этапе вывода модели. ## Где встречается - [[620. Что такое…

  • answerПочему LLM inference memory-bound, а не compute-bound?

    Хорошо, я подготовлю разбор вопроса 431 «Почему [[Вики/LLM\|LLM]] [[Вики/inference\|inference]] [[Вики/memory-bound\|memory-bound]], а не…

  • wikiGPU Inference

    # GPU Inference ## Определение Процесс выполнения предсказаний обученной модели на GPU. Является основным источником вычислительных затрат для LLM-продуктов. ## Где встречается…

  • wikiData extraction

    # Data extraction ## Определение Атака на LLM, предшествующая membership inference, с целью извлечения заученного текста из модели. ## Где встречается - [[602. Как…

  • wikiburst

    …Как вы выбираете между online и batch инференсом для LLM]] - [[850. Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как…

  • wikiInference engine

    # Inference engine ## Определение Программная платформа для оптимизации выполнения модели на GPU. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для…

  • wikicompute-bound

    …Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[436…

  • wikiAutoregressive inference

    # Autoregressive inference ## Определение Этап генерации токенов один за другим во время инференса LLM, стандартный для авторегрессионных моделей, в отличие от…

  • wikiLikelihood ratio

    …Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiPrivacy attacks

    …Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiMemory Bandwidth

    …Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[435…

  • wikiDeepSpeed Inference

    # DeepSpeed Inference ## Определение Компонент DeepSpeed для автоматического выбора tensor/pipeline parallelism на основе профилирования для ускорения инференса. ## Где встречается - [[203…

  • wikiReference-based attack

    …Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiMLPerf Inference

    # MLPerf Inference ## Определение Промышленный бенчмарк для измерения производительности инференса ML-моделей по метрикам латентности и пропускной способности (throughput). ## Где встречается…

  • wikistatic batching

    …Hugging Face Text Generation Inference)]] - [[220. Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете…

  • wikipreemption

    # preemption ## Определение Механизм принудительного освобождения памяти в LLM-инференсе путём приостановки или удаления запроса при нехватке available blocks. Позволяет эффективно…

  • wikiMemorization vs. generalization trade-off

    …Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikimemory-bound

    …Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[436…

  • wikiROC-AUC

    …Как работает membership inference атака на LLM|357. Как работает membership inference атака на LLM]] - [[496. Что такое reward correlation…

  • wikiNon-autoregressive inference

    # Non-autoregressive inference ## Определение Метод генерации всех выходных токенов за один прямой проход модели, в отличие от последовательного декодирования. Позволяет…

  • wikiLikelihood Ratio Attack

    …Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiTGI

    …для LLM endpoint Какие метрики ключевые]] - [[218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как…

  • wikitoken leakage

    # token leakage ## Определение Атака через выходные токены, связанная с membership inference для LLM, позволяющая злоумышленнику извлечь информацию о данных обучения…

  • wikibatch size

    …Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[434…

  • wikiself-correcting LLMs

    LLMs ## Определение Техники итеративного уточнения ответов LLM на этапе инференса для повышения качества без дообучения. ## Где встречается - [[68. Настроить inference

  • wikiLaplace noise

    # Laplace noise ## Определение Шум, распределённый по Лапласу, используемый для защиты логитов LLM от атак membership inference. Добавление такого шума затрудняет…

  • wikiattack success rate

    # attack success rate ## Определение Метрика, измеряющая долю успешных атак (например, jailbreak или membership inference) на LLM. Ключевая для оценки устойчивости…

  • wikiBatch inference

    # Batch inference ## Определение Объединение нескольких запросов в один пакет для повышения пропускной способности и снижения стоимости обработки, часто выполняется в…

  • wikiFLOPs

    …Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[435…

  • wikimodel weights

    …Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[800…

  • wikiLoss-based attack

    …Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiScrubbing

    …Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] - [[612. Что такое data exfiltration…

  • wikiService

    …Что такое autoscaling inference и как его настроить]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling для LLM сервера…

  • wikiMemorization

    …Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] - [[620. Что такое differential privacy…

  • wikiTTFT

    …для LLM endpoint Какие метрики ключевые]] - [[218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как…

  • wikiONNX Runtime

    …Как вы обеспечиваете низкую задержку (500ms) для LLM|64. Как вы обеспечиваете низкую задержку (500ms) для LLM]] - [[320. Что такое…

  • wikiStabilizationWindowSeconds

    …Что такое autoscaling inference и как его настроить|825. Что такое autoscaling inference и как его настроить]] - [[74. Настроить auto…

  • wikiZ-score

    …Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] - [[800+ вопросов|800+ вопросов]] - [[144…

  • wikiDrop rate

    …Как вы делаете load shedding при перегрузке LLM сервера]] - [[219. Сравнить inference schedulers (FCFS vs Priority)|219. Сравнить inference schedulers…

  • wikiNLI model

    # NLI model ## Определение Модель, обученная на задаче Natural Language Inference. Применяется для автоматической проверки фактологичности и выявления галлюцинаций в RAG…

  • wikiL1/L2 cache

    …инференсе LLM. ## Где встречается - [[444. Почему 4-bit inference иногда медленнее 8-bit|444. Почему 4-bit inference иногда медленнее…