Поиск

wikireasoning models
# reasoning models ## Определение Класс моделей, выполняющих многошаговые рассуждения с использованием test-time compute для улучшения качества ответов на сложные задачи…
wikiclick models
# click models ## Определение Модели, использующие клики пользователей как сигнал релевантности для улучшения ранжирования. Применяются для извлечения implicit feedback из журналов…
wikistudent model
# student model ## Определение Модель меньшего размера, обучаемая на выходах большой модели (учителя) для аппроксимации её поведения, применяется в дистилляции и…
wikimodel stealing attack
# model stealing attack ## Определение Атака, при которой через многократные запросы к API модели злоумышленник восстанавливает её веса или архитектуру. ## Где…
wikiActor Model
# Actor Model ## Определение Модель параллельных вычислений, где каждый актор (агент) имеет собственное состояние и почтовый ящик для асинхронной обработки сообщений…
wikimodel extraction
…Как работает model stealing attack и как защититься|351. Как работает model stealing attack и как защититься]] - [[596. Как работает…
wikimodel selection
…Как вы делаете model selection для long context (какая модель лучше держит 100k+)|639. Как вы делаете model selection для…
wikiSFT Model
# SFT Model ## Определение Модель после supervised fine-tuning, используемая как reference policy в RLHF. ## Где встречается - [[329. Как обучается reward…
wikiPosition-Based Model
# Position-Based Model ## Определение Модель клик-поведения, предполагающая, что вероятность клика зависит только от позиции документа, а не от его…
wikiUser Browsing Model
# User Browsing Model ## Определение Вероятностная модель поведения пользователя при просмотре списка результатов, учитывающая зависимость кликов от позиции и предыдущих кликов…
answerEAGLE-3 vs Medusa-2 vs Hydra: сравнение speculative decoding методов?
…def __init__(self, target_model, draft_model, method='eagle3'): self.target = target_model self.draft = draft_model self.method = method…
wikicross-model
# cross-model ## Определение Метод сравнения ответов двух разных моделей для формирования preference pairs: ответ от более сильной модели считается chosen…
wikiProcess reward model
# Process reward model ## Определение Модель, оценивающая каждый шаг агента (или рассуждения), а не только финальный ответ; используется для детальной обратной…
wikiModel cards
# Model cards ## Определение Документация модели, включающая intended use, performance, limitations и ethical considerations, для прозрачности и соответствия регуляциям. ## Где встречается…
wikiML Model Access
# ML Model Access ## Определение Тактика в MITRE ATLAS, нацеленная на получение несанкционированного доступа к ML-модели (например, через экстракцию или…
wikiDense model
# Dense model ## Определение Плотная модель (dense model) — нейронная сеть, в которой все параметры каждого слоя активируются для каждого входа. Противопоставляется…
wikishadow model
# shadow model ## Определение Вспомогательная модель, обучаемая на известных данных для имитации поведения целевой модели. Используется в membership inference атаках для…
wikiwatermarking
…Как работает model stealing attack и как защититься|351. Как работает model stealing attack и как защититься]] - [[358. Что такое…
wikiimitation model
# imitation model ## Определение Модель, обученная на выходах защищённой модели для генерации похожего текста; используется в атаках на водяные знаки. ## Где…
wikiModel Theft
# Model Theft ## Определение Извлечение, копирование или реверс-инжиниринг модели (параметры/архитектура); защита: шифрование, ограничение доступа к API, обфускация. ## Где встречается…
answerЧто такое reward hacking в RLHF и как его детектировать?
…Это происходит из-за несовершенства [[Вики/reward model\|reward]] [[Вики/model\|model]]: [[Вики/model\|модель]] учится «обманывать» её, а не…
answerЧто такое reward correlation и как ее измерять?
…Reward Model (модель вознаграждения) **[[Вики/reward model\|Reward]] [[Вики/model\|model]]** — это [[Вики/neural network\|нейросеть]] (обычно на базе [[Вики…
wikimodel ranking
# model ranking ## Определение Упорядочивание моделей по качеству на основе метрик сравнения. ## Где встречается - [[Практика|Практика]] ## Навигация - [[00. Индекс терминов|Индекс…
answerЧто такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?
…набор троек `([[Вики/промпт агента\|prompt]], chosen_response, rejected_response)`. ### 3.2 Обучение reward model - [[Вики/reward model\|Reward model…
wikiBradley-Terry model
# Bradley-Terry model ## Определение Bradley-Terry model — статистическая модель парных сравнений, которая оценивает вероятность предпочтения одного объекта другому через логистическую…
wikitopic modeling
# topic modeling ## Определение Метод анализа частоты тем для выявления дрифта в запросах. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00…
wikimodel version
# model version ## Определение Фиксация конкретной версии модели и используемого промпта для обеспечения воспроизводимости и отслеживания изменений. ## Где встречается - [[800+ вопросов…
wikiOutcome Reward Model
# Outcome Reward Model ## Определение Модель, оценивающая только финальный ответ (outcome) в RL, в отличие от Process Reward Model, оценивающей каждый…
wikiVision-Language Models
# Vision-Language Models ## Определение Мультимодальные модели, способные обрабатывать и связывать визуальную (изображения, видео) и текстовую информацию. Оцениваются с помощью бенчмарков…
wikideep learning models
# deep learning models ## Определение TVM компилирует и оптимизирует DL модели для эффективного инференса. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация…
wikiinstruct model
# instruct model ## Определение Модель, способная следовать инструкциям (instruction-tuned), рекомендуется для планирования. ## Где встречается - [[69. Реализовать deliberate decoding|69. Реализовать…
wikinoise injection
…Применяется для защиты от атак (например, membership inference, model stealing) и регуляризации при обучении. ## Где встречается - [[351. Как работает model…
wikiProtein language modeling
# Protein language modeling ## Определение Моделирование белковых последовательностей с помощью языковых моделей, например ESM3, обученной на миллиардах белков. ## Где встречается - [[800…
wikitrust model
# trust model ## Определение Trust model — модель доверия, определяющая, насколько можно полагаться на систему или источник после компрометации, например кражи промпта…
wikiPricing model
# Pricing model ## Определение Модель ценообразования на вычислительные ресурсы (reserved, spot, on-demand) или на запросы к LLM. Определяет стоимость и…
wikiWorld models
# World models ## Определение Формальное представление среды, используемое агентом для рассуждений о причинно-следственных связях, физических законах и онтологиях. Позволяет моделировать…
wikimodel inversion attack
…Как работает model stealing attack и как защититься|351. Как работает model stealing attack и как защититься]] - [[612. Что такое…
wikistep verifier
…Как работают verifier models для agentic RAG и зачем они нужны|571. Как работают verifier models для agentic RAG и…
wikiUser Modeling
# User Modeling ## Определение Создание и поддержка профиля пользователя на основе истории взаимодействий, предпочтений и контекстных знаний; часто реализуется с помощью…
wikiNER model
# NER model ## Определение Модель для распознавания именованных сущностей, применяемая для детекции PII в данных перед обучением или в RAG-пайплайне…
wikiend verifier
…Как работают verifier models для agentic RAG и зачем они нужны|571. Как работают verifier models для agentic RAG и…
wikitarget model
# target model ## Определение Основная LLM, которая проверяет и принимает/отклоняет токены от draft модели в speculative decoding, или используется как…
wikiTemporal modeling
# Temporal modeling ## Определение Метод учёта временных зависимостей между кадрами видеопотока (например, через VideoCoCa или TimeSformer) для понимания динамики, движения и…
answerЧто такое calibration в контексте reward model для RLHF?
…Что такое calibration в контексте reward model для RLHF? ## Краткий тезис **Calibration** (калибровка) в контексте reward model для RLHF — это…
wikimulti-model
# multi-model ## Определение Поддержка нескольких моделей в одном API с выбором через параметр model. ## Где встречается - [[90. Как вы проектируете…
wikimasked language modeling
# masked language modeling ## Определение Метод предобучения NLP-моделей, при котором случайно замаскированные токены в тексте предсказываются по контексту. Используется в…
answerКак работает synthetic data для RLHF (предпочтения)?
…Cross-model подход [[Вики/cross-model\|Cross-model]] — [[Вики/сравнение ответов\|сравнение ответов]] разных моделей. Идея: ответ от более сильной…
answerЧто такое RLAIF (RL from AI Feedback) и как он масштабируется?
…3. [[Вики/training\|Обучение]] [[Вики/reward model\|reward]] [[Вики/embedding-модель\|model]] На собранных парах ([[Вики/промпт агента\|промпт]], ответ…
answerКак вы делаете health check для LLM сервера с учетом модели (не только процесс)?
…global model_ready # загрузка модели (может занимать минуты) model = await load_llm_model() model_ready = True @app.get("/ready") async…
wikimodel.unload
# model.unload ## Определение Операция выгрузки модели из памяти GPU для освобождения ресурсов при завершении работы инференс-сервиса. ## Где встречается - [[409…