Поиск

wikimembership inference attack
…Как работает membership inference атака на LLM|357. Как работает membership inference атака на LLM]] - [[488. Что такое benchmark contamination…
wikiinference
# inference ## Определение Скорость генерации ответа; fine-tuning обычно быстрее, RAG медленнее из-за retrieval. ## Где встречается - [[78. Какие LLM для…
wikiLLM inference
# LLM inference ## Определение Процесс генерации ответа языковой моделью на основе входного промпта; включает токенизацию, прямой проход по сети и декодирование…
wikiInference server
# Inference server ## Определение сервер, выполняющий запуск LLM для обработки запросов, в каждом регионе свой набор ## Где встречается - [[247. Как вы…
wikiLLM inference cluster
# LLM inference cluster ## Определение Кластер серверов, развёрнутых для выполнения инференса LLM, часто распределённый по регионам для низкой задержки и высокой…
wikiInference scheduler
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] - [[Практика|Практика]] - [[800+ вопросов|800…
wikiautoscaling inference
# autoscaling inference ## Определение Автоматическое добавление или удаление реплик LLM на основе текущей нагрузки для эффективного использования ресурсов и баланса между…
wikishadow model
…Как работает membership inference атака на LLM|357. Как работает membership inference атака на LLM]] - [[602. Как работает membership inference…
wikionline inference
# online inference ## Определение Синхронный инференс с низкой задержкой (<500ms) для real-time взаимодействия, требует постоянной доступности и часто использует on…
wikiDP Inference
# DP Inference ## Определение Добавление шума в выходные логиты для защиты приватности на этапе вывода модели. ## Где встречается - [[620. Что такое…
answerПочему LLM inference memory-bound, а не compute-bound?
Хорошо, я подготовлю разбор вопроса 431 «Почему [[Вики/LLM\|LLM]] [[Вики/inference\|inference]] [[Вики/memory-bound\|memory-bound]], а не…
wikiGPU Inference
# GPU Inference ## Определение Процесс выполнения предсказаний обученной модели на GPU. Является основным источником вычислительных затрат для LLM-продуктов. ## Где встречается…
wikiData extraction
# Data extraction ## Определение Атака на LLM, предшествующая membership inference, с целью извлечения заученного текста из модели. ## Где встречается - [[602. Как…
wikiburst
…Как вы выбираете между online и batch инференсом для LLM]] - [[850. Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как…
wikiInference engine
# Inference engine ## Определение Программная платформа для оптимизации выполнения модели на GPU. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для…
wikicompute-bound
…Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[436…
wikiAutoregressive inference
# Autoregressive inference ## Определение Этап генерации токенов один за другим во время инференса LLM, стандартный для авторегрессионных моделей, в отличие от…
wikiLikelihood ratio
…Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…
wikiPrivacy attacks
…Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…
wikiMemory Bandwidth
…Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[435…
wikiDeepSpeed Inference
# DeepSpeed Inference ## Определение Компонент DeepSpeed для автоматического выбора tensor/pipeline parallelism на основе профилирования для ускорения инференса. ## Где встречается - [[203…
wikiReference-based attack
…Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…
wikiMLPerf Inference
# MLPerf Inference ## Определение Промышленный бенчмарк для измерения производительности инференса ML-моделей по метрикам латентности и пропускной способности (throughput). ## Где встречается…
wikistatic batching
…Hugging Face Text Generation Inference)]] - [[220. Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете…
wikipreemption
# preemption ## Определение Механизм принудительного освобождения памяти в LLM-инференсе путём приостановки или удаления запроса при нехватке available blocks. Позволяет эффективно…
wikiMemorization vs. generalization trade-off
…Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…
wikimemory-bound
…Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[436…
wikiROC-AUC
…Как работает membership inference атака на LLM|357. Как работает membership inference атака на LLM]] - [[496. Что такое reward correlation…
wikiNon-autoregressive inference
# Non-autoregressive inference ## Определение Метод генерации всех выходных токенов за один прямой проход модели, в отличие от последовательного декодирования. Позволяет…
wikiLikelihood Ratio Attack
…Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…
wikiTGI
…для LLM endpoint Какие метрики ключевые]] - [[218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как…
wikitoken leakage
# token leakage ## Определение Атака через выходные токены, связанная с membership inference для LLM, позволяющая злоумышленнику извлечь информацию о данных обучения…
wikibatch size
…Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[434…
wikiself-correcting LLMs
…LLMs ## Определение Техники итеративного уточнения ответов LLM на этапе инференса для повышения качества без дообучения. ## Где встречается - [[68. Настроить inference…
wikiLaplace noise
# Laplace noise ## Определение Шум, распределённый по Лапласу, используемый для защиты логитов LLM от атак membership inference. Добавление такого шума затрудняет…
wikiattack success rate
# attack success rate ## Определение Метрика, измеряющая долю успешных атак (например, jailbreak или membership inference) на LLM. Ключевая для оценки устойчивости…
wikiBatch inference
# Batch inference ## Определение Объединение нескольких запросов в один пакет для повышения пропускной способности и снижения стоимости обработки, часто выполняется в…
wikiFLOPs
…Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[435…
wikimodel weights
…Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[800…
wikiLoss-based attack
…Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…
wikiScrubbing
…Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] - [[612. Что такое data exfiltration…
wikiService
…Что такое autoscaling inference и как его настроить]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling для LLM сервера…
wikiMemorization
…Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] - [[620. Что такое differential privacy…
wikiTTFT
…для LLM endpoint Какие метрики ключевые]] - [[218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как…
wikiONNX Runtime
…Как вы обеспечиваете низкую задержку (500ms) для LLM|64. Как вы обеспечиваете низкую задержку (500ms) для LLM]] - [[320. Что такое…
wikiStabilizationWindowSeconds
…Что такое autoscaling inference и как его настроить|825. Что такое autoscaling inference и как его настроить]] - [[74. Настроить auto…
wikiZ-score
…Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] - [[800+ вопросов|800+ вопросов]] - [[144…
wikiDrop rate
…Как вы делаете load shedding при перегрузке LLM сервера]] - [[219. Сравнить inference schedulers (FCFS vs Priority)|219. Сравнить inference schedulers…
wikiNLI model
# NLI model ## Определение Модель, обученная на задаче Natural Language Inference. Применяется для автоматической проверки фактологичности и выявления галлюцинаций в RAG…
wikiL1/L2 cache
…инференсе LLM. ## Где встречается - [[444. Почему 4-bit inference иногда медленнее 8-bit|444. Почему 4-bit inference иногда медленнее…