Поиск
- wikimembership inference attack
…Как работает membership inference атака на LLM|357. Как работает membership inference атака на LLM]] - [[488. Что такое benchmark contamination…
- wikiinference
# inference ## Определение Скорость генерации ответа; fine-tuning обычно быстрее, RAG медленнее из-за retrieval. ## Где встречается - [[78. Какие LLM для…
- wikiLLM inference
# LLM inference ## Определение Процесс генерации ответа языковой моделью на основе входного промпта; включает токенизацию, прямой проход по сети и декодирование…
- wikiInference server
# Inference server ## Определение сервер, выполняющий запуск LLM для обработки запросов, в каждом регионе свой набор ## Где встречается - [[247. Как вы…
- wikiLLM inference cluster
# LLM inference cluster ## Определение Кластер серверов, развёрнутых для выполнения инференса LLM, часто распределённый по регионам для низкой задержки и высокой…
- wikiInference scheduler
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] - [[Практика|Практика]] - [[800+ вопросов|800…
- wikiautoscaling inference
# autoscaling inference ## Определение Автоматическое добавление или удаление реплик LLM на основе текущей нагрузки для эффективного использования ресурсов и баланса между…
- wikishadow model
…Как работает membership inference атака на LLM|357. Как работает membership inference атака на LLM]] - [[602. Как работает membership inference…
- wikionline inference
# online inference ## Определение Синхронный инференс с низкой задержкой (<500ms) для real-time взаимодействия, требует постоянной доступности и часто использует on…
- wikiDP Inference
# DP Inference ## Определение Добавление шума в выходные логиты для защиты приватности на этапе вывода модели. ## Где встречается - [[620. Что такое…
- answerПочему LLM inference memory-bound, а не compute-bound?
Хорошо, я подготовлю разбор вопроса 431 «Почему [[Вики/LLM\|LLM]] [[Вики/inference\|inference]] [[Вики/memory-bound\|memory-bound]], а не…
- wikiGPU Inference
# GPU Inference ## Определение Процесс выполнения предсказаний обученной модели на GPU. Является основным источником вычислительных затрат для LLM-продуктов. ## Где встречается…
- wikiData extraction
# Data extraction ## Определение Атака на LLM, предшествующая membership inference, с целью извлечения заученного текста из модели. ## Где встречается - [[602. Как…
- wikiburst
…Как вы выбираете между online и batch инференсом для LLM]] - [[850. Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как…
- wikiInference engine
# Inference engine ## Определение Программная платформа для оптимизации выполнения модели на GPU. ## Где встречается - [[318. TensorRT-LLM vs vLLM — сравнение для…
- wikicompute-bound
…Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[436…
- wikiAutoregressive inference
# Autoregressive inference ## Определение Этап генерации токенов один за другим во время инференса LLM, стандартный для авторегрессионных моделей, в отличие от…
- wikiLikelihood ratio
…Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiPrivacy attacks
…Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiMemory Bandwidth
…Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[435…
- wikiDeepSpeed Inference
# DeepSpeed Inference ## Определение Компонент DeepSpeed для автоматического выбора tensor/pipeline parallelism на основе профилирования для ускорения инференса. ## Где встречается - [[203…
- wikiReference-based attack
…Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiMLPerf Inference
# MLPerf Inference ## Определение Промышленный бенчмарк для измерения производительности инференса ML-моделей по метрикам латентности и пропускной способности (throughput). ## Где встречается…
- wikistatic batching
…Hugging Face Text Generation Inference)]] - [[220. Как вы выбираете между online и batch инференсом для LLM|220. Как вы выбираете…
- wikipreemption
# preemption ## Определение Механизм принудительного освобождения памяти в LLM-инференсе путём приостановки или удаления запроса при нехватке available blocks. Позволяет эффективно…
- wikiMemorization vs. generalization trade-off
…Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikimemory-bound
…Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[436…
- wikiROC-AUC
…Как работает membership inference атака на LLM|357. Как работает membership inference атака на LLM]] - [[496. Что такое reward correlation…
- wikiNon-autoregressive inference
# Non-autoregressive inference ## Определение Метод генерации всех выходных токенов за один прямой проход модели, в отличие от последовательного декодирования. Позволяет…
- wikiLikelihood Ratio Attack
…Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiTGI
…для LLM endpoint Какие метрики ключевые]] - [[218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как…
- wikitoken leakage
# token leakage ## Определение Атака через выходные токены, связанная с membership inference для LLM, позволяющая злоумышленнику извлечь информацию о данных обучения…
- wikibatch size
…Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[434…
- wikiself-correcting LLMs
…LLMs ## Определение Техники итеративного уточнения ответов LLM на этапе инференса для повышения качества без дообучения. ## Где встречается - [[68. Настроить inference…
- wikiLaplace noise
# Laplace noise ## Определение Шум, распределённый по Лапласу, используемый для защиты логитов LLM от атак membership inference. Добавление такого шума затрудняет…
- wikiattack success rate
# attack success rate ## Определение Метрика, измеряющая долю успешных атак (например, jailbreak или membership inference) на LLM. Ключевая для оценки устойчивости…
- wikiBatch inference
# Batch inference ## Определение Объединение нескольких запросов в один пакет для повышения пропускной способности и снижения стоимости обработки, часто выполняется в…
- wikiFLOPs
…Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[435…
- wikimodel weights
…Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[800…
- wikiLoss-based attack
…Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiScrubbing
…Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] - [[612. Что такое data exfiltration…
- wikiService
…Что такое autoscaling inference и как его настроить]] - [[192. Настроить autoscaling для LLM сервера|192. Настроить autoscaling для LLM сервера…
- wikiMemorization
…Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] - [[620. Что такое differential privacy…
- wikiTTFT
…для LLM endpoint Какие метрики ключевые]] - [[218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как…
- wikiONNX Runtime
…Как вы обеспечиваете низкую задержку (500ms) для LLM|64. Как вы обеспечиваете низкую задержку (500ms) для LLM]] - [[320. Что такое…
- wikiStabilizationWindowSeconds
…Что такое autoscaling inference и как его настроить|825. Что такое autoscaling inference и как его настроить]] - [[74. Настроить auto…
- wikiZ-score
…Как работает membership inference атака на LLM|602. Как работает membership inference атака на LLM]] - [[800+ вопросов|800+ вопросов]] - [[144…
- wikiDrop rate
…Как вы делаете load shedding при перегрузке LLM сервера]] - [[219. Сравнить inference schedulers (FCFS vs Priority)|219. Сравнить inference schedulers…
- wikiNLI model
# NLI model ## Определение Модель, обученная на задаче Natural Language Inference. Применяется для автоматической проверки фактологичности и выявления галлюцинаций в RAG…
- wikiL1/L2 cache
…инференсе LLM. ## Где встречается - [[444. Почему 4-bit inference иногда медленнее 8-bit|444. Почему 4-bit inference иногда медленнее…