Поиск

  • wikireasoning models

    # reasoning models ## Определение Класс моделей, выполняющих многошаговые рассуждения с использованием test-time compute для улучшения качества ответов на сложные задачи…

  • wikiclick models

    # click models ## Определение Модели, использующие клики пользователей как сигнал релевантности для улучшения ранжирования. Применяются для извлечения implicit feedback из журналов…

  • wikistudent model

    # student model ## Определение Модель меньшего размера, обучаемая на выходах большой модели (учителя) для аппроксимации её поведения, применяется в дистилляции и…

  • wikimodel stealing attack

    # model stealing attack ## Определение Атака, при которой через многократные запросы к API модели злоумышленник восстанавливает её веса или архитектуру. ## Где…

  • wikiActor Model

    # Actor Model ## Определение Модель параллельных вычислений, где каждый актор (агент) имеет собственное состояние и почтовый ящик для асинхронной обработки сообщений…

  • wikimodel extraction

    …Как работает model stealing attack и как защититься|351. Как работает model stealing attack и как защититься]] - [[596. Как работает…

  • wikimodel selection

    …Как вы делаете model selection для long context (какая модель лучше держит 100k+)|639. Как вы делаете model selection для…

  • wikiSFT Model

    # SFT Model ## Определение Модель после supervised fine-tuning, используемая как reference policy в RLHF. ## Где встречается - [[329. Как обучается reward…

  • wikiPosition-Based Model

    # Position-Based Model ## Определение Модель клик-поведения, предполагающая, что вероятность клика зависит только от позиции документа, а не от его…

  • wikiUser Browsing Model

    # User Browsing Model ## Определение Вероятностная модель поведения пользователя при просмотре списка результатов, учитывающая зависимость кликов от позиции и предыдущих кликов…

  • answerEAGLE-3 vs Medusa-2 vs Hydra: сравнение speculative decoding методов?

    …def __init__(self, target_model, draft_model, method='eagle3'): self.target = target_model self.draft = draft_model self.method = method…

  • wikicross-model

    # cross-model ## Определение Метод сравнения ответов двух разных моделей для формирования preference pairs: ответ от более сильной модели считается chosen…

  • wikiProcess reward model

    # Process reward model ## Определение Модель, оценивающая каждый шаг агента (или рассуждения), а не только финальный ответ; используется для детальной обратной…

  • wikiModel cards

    # Model cards ## Определение Документация модели, включающая intended use, performance, limitations и ethical considerations, для прозрачности и соответствия регуляциям. ## Где встречается…

  • wikiML Model Access

    # ML Model Access ## Определение Тактика в MITRE ATLAS, нацеленная на получение несанкционированного доступа к ML-модели (например, через экстракцию или…

  • wikiDense model

    # Dense model ## Определение Плотная модель (dense model) — нейронная сеть, в которой все параметры каждого слоя активируются для каждого входа. Противопоставляется…

  • wikishadow model

    # shadow model ## Определение Вспомогательная модель, обучаемая на известных данных для имитации поведения целевой модели. Используется в membership inference атаках для…

  • wikiwatermarking

    …Как работает model stealing attack и как защититься|351. Как работает model stealing attack и как защититься]] - [[358. Что такое…

  • wikiimitation model

    # imitation model ## Определение Модель, обученная на выходах защищённой модели для генерации похожего текста; используется в атаках на водяные знаки. ## Где…

  • wikiModel Theft

    # Model Theft ## Определение Извлечение, копирование или реверс-инжиниринг модели (параметры/архитектура); защита: шифрование, ограничение доступа к API, обфускация. ## Где встречается…

  • answerЧто такое reward hacking в RLHF и как его детектировать?

    …Это происходит из-за несовершенства [[Вики/reward model\|reward]] [[Вики/model\|model]]: [[Вики/model\|модель]] учится «обманывать» её, а не…

  • answerЧто такое reward correlation и как ее измерять?

    …Reward Model (модель вознаграждения) **[[Вики/reward model\|Reward]] [[Вики/model\|model]]** — это [[Вики/neural network\|нейросеть]] (обычно на базе [[Вики…

  • wikimodel ranking

    # model ranking ## Определение Упорядочивание моделей по качеству на основе метрик сравнения. ## Где встречается - [[Практика|Практика]] ## Навигация - [[00. Индекс терминов|Индекс…

  • answerЧто такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?

    …набор троек `([[Вики/промпт агента\|prompt]], chosen_response, rejected_response)`. ### 3.2 Обучение reward model - [[Вики/reward model\|Reward model

  • wikiBradley-Terry model

    # Bradley-Terry model ## Определение Bradley-Terry model — статистическая модель парных сравнений, которая оценивает вероятность предпочтения одного объекта другому через логистическую…

  • wikitopic modeling

    # topic modeling ## Определение Метод анализа частоты тем для выявления дрифта в запросах. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00…

  • wikimodel version

    # model version ## Определение Фиксация конкретной версии модели и используемого промпта для обеспечения воспроизводимости и отслеживания изменений. ## Где встречается - [[800+ вопросов…

  • wikiOutcome Reward Model

    # Outcome Reward Model ## Определение Модель, оценивающая только финальный ответ (outcome) в RL, в отличие от Process Reward Model, оценивающей каждый…

  • wikiVision-Language Models

    # Vision-Language Models ## Определение Мультимодальные модели, способные обрабатывать и связывать визуальную (изображения, видео) и текстовую информацию. Оцениваются с помощью бенчмарков…

  • wikideep learning models

    # deep learning models ## Определение TVM компилирует и оптимизирует DL модели для эффективного инференса. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация…

  • wikiinstruct model

    # instruct model ## Определение Модель, способная следовать инструкциям (instruction-tuned), рекомендуется для планирования. ## Где встречается - [[69. Реализовать deliberate decoding|69. Реализовать…

  • wikinoise injection

    …Применяется для защиты от атак (например, membership inference, model stealing) и регуляризации при обучении. ## Где встречается - [[351. Как работает model

  • wikiProtein language modeling

    # Protein language modeling ## Определение Моделирование белковых последовательностей с помощью языковых моделей, например ESM3, обученной на миллиардах белков. ## Где встречается - [[800…

  • wikitrust model

    # trust model ## Определение Trust model — модель доверия, определяющая, насколько можно полагаться на систему или источник после компрометации, например кражи промпта…

  • wikiPricing model

    # Pricing model ## Определение Модель ценообразования на вычислительные ресурсы (reserved, spot, on-demand) или на запросы к LLM. Определяет стоимость и…

  • wikiWorld models

    # World models ## Определение Формальное представление среды, используемое агентом для рассуждений о причинно-следственных связях, физических законах и онтологиях. Позволяет моделировать…

  • wikimodel inversion attack

    …Как работает model stealing attack и как защититься|351. Как работает model stealing attack и как защититься]] - [[612. Что такое…

  • wikistep verifier

    …Как работают verifier models для agentic RAG и зачем они нужны|571. Как работают verifier models для agentic RAG и…

  • wikiUser Modeling

    # User Modeling ## Определение Создание и поддержка профиля пользователя на основе истории взаимодействий, предпочтений и контекстных знаний; часто реализуется с помощью…

  • wikiNER model

    # NER model ## Определение Модель для распознавания именованных сущностей, применяемая для детекции PII в данных перед обучением или в RAG-пайплайне…

  • wikiend verifier

    …Как работают verifier models для agentic RAG и зачем они нужны|571. Как работают verifier models для agentic RAG и…

  • wikitarget model

    # target model ## Определение Основная LLM, которая проверяет и принимает/отклоняет токены от draft модели в speculative decoding, или используется как…

  • wikiTemporal modeling

    # Temporal modeling ## Определение Метод учёта временных зависимостей между кадрами видеопотока (например, через VideoCoCa или TimeSformer) для понимания динамики, движения и…

  • answerЧто такое calibration в контексте reward model для RLHF?

    …Что такое calibration в контексте reward model для RLHF? ## Краткий тезис **Calibration** (калибровка) в контексте reward model для RLHF — это…

  • wikimulti-model

    # multi-model ## Определение Поддержка нескольких моделей в одном API с выбором через параметр model. ## Где встречается - [[90. Как вы проектируете…

  • wikimasked language modeling

    # masked language modeling ## Определение Метод предобучения NLP-моделей, при котором случайно замаскированные токены в тексте предсказываются по контексту. Используется в…

  • answerКак работает synthetic data для RLHF (предпочтения)?

    …Cross-model подход [[Вики/cross-model\|Cross-model]] — [[Вики/сравнение ответов\|сравнение ответов]] разных моделей. Идея: ответ от более сильной…

  • answerЧто такое RLAIF (RL from AI Feedback) и как он масштабируется?

    …3. [[Вики/training\|Обучение]] [[Вики/reward model\|reward]] [[Вики/embedding-модель\|model]] На собранных парах ([[Вики/промпт агента\|промпт]], ответ…

  • answerКак вы делаете health check для LLM сервера с учетом модели (не только процесс)?

    …global model_ready # загрузка модели (может занимать минуты) model = await load_llm_model() model_ready = True @app.get("/ready") async…

  • wikimodel.unload

    # model.unload ## Определение Операция выгрузки модели из памяти GPU для освобождения ресурсов при завершении работы инференс-сервиса. ## Где встречается - [[409…