Поиск

  • wikiend-to-end обучение

    # end-to-end обучение ## Определение Подход обучения, при котором все компоненты модели обучаются совместно, как в Fuyu-8B. ## Где встречается…

  • wikilearning from failure

    # learning from failure ## Определение Практика извлечения уроков из инцидентов для улучшения системы; ключевая цель blameless postmortem. ## Где встречается - [[265. Создать…

  • wikiPerplexity gain

    …Как работает Toolformer (обучение агента использованию инструментов)|898. Как работает Toolformer (обучение агента использованию инструментов)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiStudent Agent

    …Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…

  • wikiTeacher Agent

    …Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…

  • wikiCache Agent

    …Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…

  • wikiLoss masking

    …Как работает Toolformer (обучение агента использованию инструментов)|898. Как работает Toolformer (обучение агента использованию инструментов)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikimeta-learning

    # meta-learning ## Определение Парадигма, в которой модель учится оптимальному представлению или стратегии для новых задач на основе нескольких примеров, что…

  • wikidistributed training

    # distributed training ## Определение Метод обучения модели на нескольких GPU или узлах с использованием параллелизма данных или модели, часто с техниками…

  • wikiIterated Training

    обучение модели вознаграждения, обучение политики с PPO, сбор новых предпочтений, дообучение модели вознаграждения. Применяется для предотвращения reward hacking. ## Где встречается…

  • wikiagent distillation

    …Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…

  • wikiToolformer

    …Как работает Toolformer (обучение агента использованию инструментов)|898. Как работает Toolformer (обучение агента использованию инструментов)]] - [[800+ вопросов|800+ вопросов]] ## Навигация…

  • wikiOnline learning

    # Online learning ## Определение Инкрементальное обновление модели по мере поступления данных без переобучения с нуля, подходит для retrieval-ранжировщиков и агентов…

  • wikiSFT

    …Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…

  • wikiтраектория агента

    …Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…

  • wikiEnd-to-end

    # End-to-end ## Определение Подход, при котором система или обучение работают от начала до конца без разделения на отдельные модули…

  • wikinext token prediction

    …Как работает Toolformer (обучение агента использованию инструментов)|898. Как работает Toolformer (обучение агента использованию инструментов)]] - [[800+ вопросов|800+ вопросов]] ## Навигация…

  • wikiEdge deployment

    …Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…

  • wikicontinuous learning

    # continuous learning ## Определение Парадигма обучения, при которой модель непрерывно адаптируется к новым данным без катастрофического забывания. Используются техники вроде EWC…

  • wikiself-supervision

    …Как работает Toolformer (обучение агента использованию инструментов)|898. Как работает Toolformer (обучение агента использованию инструментов)]] - [[Практика|Практика]] - [[800+ вопросов|800…

  • wikiSGDClassifier

    # SGDClassifier ## Определение Линейный классификатор с стохастическим градиентным спуском, поддерживающий инкрементальное обучение (partial_fit). ## Где встречается - [[275. Реализовать active learning loop…

  • wikireward delay

    # reward delay ## Определение Агент не получает обратной связи до конца эпизода, что затрудняет обучение. ## Где встречается - [[800+ вопросов|800+ вопросов…

  • wikiGAN-style

    # GAN-style ## Определение Соревновательное обучение, как в GAN, используется в competitive паттерне multi-agent систем. ## Где встречается - [[800+ вопросов|800…

  • wikiStep-level supervision

    # Step-level supervision ## Определение Обучение на метках правильности каждого шага траектории агента. ## Где встречается - [[65. Реализовать process reward model|65…

  • wikiend-to-end learning

    # end-to-end learning ## Определение Подход обучения модели без разделения на отдельные этапы; преимущество архитектуры Fuyu-8B. ## Где встречается - [[800…

  • wikiML Engineer

    # ML Engineer ## Определение Роль инженера, отвечающего за разработку, обучение и внедрение моделей машинного обучения, включая fine-tuning и создание эмбеддингов…

  • wikiclosed-form solution

    # closed-form solution ## Определение Решение, которое даёт возможность напрямую вычислить оптимальную политику, минуя итеративное обучение модели вознаграждения. Применяется в методах…

  • wikiNER model

    # NER model ## Определение Модель для распознавания именованных сущностей, применяемая для детекции PII в данных перед обучением или в RAG-пайплайне…

  • wikierror accumulation

    …Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…

  • wikiPII redaction

    # PII redaction ## Определение Удаление персонально идентифицируемой информации из документов перед индексацией или обучением. Критично для систем, работающих с конфиденциальными данными…

  • answerКак работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?

    …Такой подход обеспечивает сквозное обучение без дополнительных модусов слияния (fusion). ## 1. Термин: мультимодальное выравнивание (alignment) [[Вики/safety alignment\|Мультимодальное выравнивание…

  • wikitokens per word

    …Меньшее значение снижает затраты на обучение и инференс. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов|Индекс терминов…

  • wikitrajectory distillation

    # trajectory distillation ## Определение Обучение маленькой модели (студента) генерировать короткие траектории, имитируя успешные траектории большой модели (учителя). ## Где встречается - [[895. Как…

  • wikiSynthetic batch

    # Synthetic batch ## Определение Искусственный мини-батч данных, используемый для быстрой проверки корректности прямого прохода модели (forward pass) перед полноценным обучением

  • wikiTrain set

    # Train set ## Определение Набор данных, на котором производится обучение или fine-tuning модели; loss на нём используется для обнаружения переобучения…

  • wiki70B model

    # 70B model ## Определение Языковая модель с 70 миллиардами параметров. Обучение требует распределённых методов, таких как ZeRO-3 и оптимизатор sharding…

  • wikiS5

    # S5 ## Определение Упрощённая версия S4 с улучшенным дизайном, обеспечивающая более эффективное вычисление и обучение. ## Где встречается - [[713. Как работает Mamba…

  • wikiGoogle Colab

    …доступом к GPU/TPU, предназначенная для экспериментов с машинным обучением и анализа данных без локальной настройки. ## Где встречается - [[4. Настроить…

  • wikiHPC

    # HPC ## Определение Область вычислений, использующая мощные кластеры с GPU и высокоскоростными сетями (InfiniBand) для решения ресурсоёмких задач, таких как обучение

  • wikiCPU↔GPU transfers

    …памятью GPU, являющиеся узким местом при offload и замедляющие обучение в 2-5 раз. ## Где встречается - [[800+ вопросов|800+ вопросов…

  • wikiLiT

    # LiT ## Определение Метод дообучения мультимодальных моделей, при котором image encoder заморожен, а text encoder обучается; ускоряет обучение, например, для SigLIP…

  • wikiData Filtering

    # Data Filtering ## Определение Метод отсева шумных данных перед обучением модели, часто комбинируемый с curriculum learning для улучшения качества. ## Где встречается…

  • wikiML workload

    # ML workload ## Определение Тип вычислительной нагрузки (обучение, инференс, обработка данных), определяющий выбор моделей покупки ресурсов и SLA. ## Где встречается - [[143…

  • wikiMLOps pipeline

    # MLOps pipeline ## Определение CI/CD-пайплайн для автоматизации шагов ML-процесса, таких как обучение, валидация, регистрация моделей и развёртывание. ## Где…

  • wikibehavior cloning

    # behavior cloning ## Определение Метод обучения агента, при котором он имитирует траектории учителя без взаимодействия со средой; частный случай дистилляции. ## Где…

  • wikiGradient Conditioning

    # Gradient Conditioning ## Определение Свойство нормализации (например, LayerNorm) делать градиенты независимыми от масштаба входных значений, улучшая обучение. ## Где встречается - [[654. Как…

  • wikiHuggingFace Transformers

    # HuggingFace Transformers ## Определение Основная библиотека от Hugging Face, предоставляющая архитектуры и инструменты для работы с трансформерами, включая обучение и оценку…

  • wikiCalibration RM

    # Calibration RM ## Определение Обучение reward model предсказывать калиброванные вероятности, например через Platt scaling, для уменьшения reward hacking. ## Где встречается - [[329…

  • wikicritical workload

    # critical workload ## Определение Нагрузка, которая не должна прерываться (например, обучение production-модели); для неё используются reserved или on-demand инстансы…

  • wikifederated learning

    # federated learning ## Определение Парадигма машинного обучения, при которой модель обучается на децентрализованных данных без их централизации. ## Где встречается - [[623. Что…