Поиск

wikiend-to-end обучение
# end-to-end обучение ## Определение Подход обучения, при котором все компоненты модели обучаются совместно, как в Fuyu-8B. ## Где встречается…
wikilearning from failure
# learning from failure ## Определение Практика извлечения уроков из инцидентов для улучшения системы; ключевая цель blameless postmortem. ## Где встречается - [[265. Создать…
wikiPerplexity gain
…Как работает Toolformer (обучение агента использованию инструментов)|898. Как работает Toolformer (обучение агента использованию инструментов)]] ## Навигация - [[00. Индекс терминов|Индекс…
wikiStudent Agent
…Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…
wikiTeacher Agent
…Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…
wikiCache Agent
…Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…
wikiLoss masking
…Как работает Toolformer (обучение агента использованию инструментов)|898. Как работает Toolformer (обучение агента использованию инструментов)]] ## Навигация - [[00. Индекс терминов|Индекс…
wikimeta-learning
# meta-learning ## Определение Парадигма, в которой модель учится оптимальному представлению или стратегии для новых задач на основе нескольких примеров, что…
wikidistributed training
# distributed training ## Определение Метод обучения модели на нескольких GPU или узлах с использованием параллелизма данных или модели, часто с техниками…
wikiIterated Training
…обучение модели вознаграждения, обучение политики с PPO, сбор новых предпочтений, дообучение модели вознаграждения. Применяется для предотвращения reward hacking. ## Где встречается…
wikiagent distillation
…Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…
wikiToolformer
…Как работает Toolformer (обучение агента использованию инструментов)|898. Как работает Toolformer (обучение агента использованию инструментов)]] - [[800+ вопросов|800+ вопросов]] ## Навигация…
wikiOnline learning
# Online learning ## Определение Инкрементальное обновление модели по мере поступления данных без переобучения с нуля, подходит для retrieval-ранжировщиков и агентов…
wikiSFT
…Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…
wikiтраектория агента
…Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…
wikiEnd-to-end
# End-to-end ## Определение Подход, при котором система или обучение работают от начала до конца без разделения на отдельные модули…
wikinext token prediction
…Как работает Toolformer (обучение агента использованию инструментов)|898. Как работает Toolformer (обучение агента использованию инструментов)]] - [[800+ вопросов|800+ вопросов]] ## Навигация…
wikiEdge deployment
…Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…
wikicontinuous learning
# continuous learning ## Определение Парадигма обучения, при которой модель непрерывно адаптируется к новым данным без катастрофического забывания. Используются техники вроде EWC…
wikiself-supervision
…Как работает Toolformer (обучение агента использованию инструментов)|898. Как работает Toolformer (обучение агента использованию инструментов)]] - [[Практика|Практика]] - [[800+ вопросов|800…
wikiSGDClassifier
# SGDClassifier ## Определение Линейный классификатор с стохастическим градиентным спуском, поддерживающий инкрементальное обучение (partial_fit). ## Где встречается - [[275. Реализовать active learning loop…
wikireward delay
# reward delay ## Определение Агент не получает обратной связи до конца эпизода, что затрудняет обучение. ## Где встречается - [[800+ вопросов|800+ вопросов…
wikiGAN-style
# GAN-style ## Определение Соревновательное обучение, как в GAN, используется в competitive паттерне multi-agent систем. ## Где встречается - [[800+ вопросов|800…
wikiStep-level supervision
# Step-level supervision ## Определение Обучение на метках правильности каждого шага траектории агента. ## Где встречается - [[65. Реализовать process reward model|65…
wikiend-to-end learning
# end-to-end learning ## Определение Подход обучения модели без разделения на отдельные этапы; преимущество архитектуры Fuyu-8B. ## Где встречается - [[800…
wikiML Engineer
# ML Engineer ## Определение Роль инженера, отвечающего за разработку, обучение и внедрение моделей машинного обучения, включая fine-tuning и создание эмбеддингов…
wikiclosed-form solution
# closed-form solution ## Определение Решение, которое даёт возможность напрямую вычислить оптимальную политику, минуя итеративное обучение модели вознаграждения. Применяется в методах…
wikiNER model
# NER model ## Определение Модель для распознавания именованных сущностей, применяемая для детекции PII в данных перед обучением или в RAG-пайплайне…
wikierror accumulation
…Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…
wikiPII redaction
# PII redaction ## Определение Удаление персонально идентифицируемой информации из документов перед индексацией или обучением. Критично для систем, работающих с конфиденциальными данными…
answerКак работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?
…Такой подход обеспечивает сквозное обучение без дополнительных модусов слияния (fusion). ## 1. Термин: мультимодальное выравнивание (alignment) [[Вики/safety alignment\|Мультимодальное выравнивание…
wikitokens per word
…Меньшее значение снижает затраты на обучение и инференс. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов|Индекс терминов…
wikitrajectory distillation
# trajectory distillation ## Определение Обучение маленькой модели (студента) генерировать короткие траектории, имитируя успешные траектории большой модели (учителя). ## Где встречается - [[895. Как…
wikiSynthetic batch
# Synthetic batch ## Определение Искусственный мини-батч данных, используемый для быстрой проверки корректности прямого прохода модели (forward pass) перед полноценным обучением…
wikiTrain set
# Train set ## Определение Набор данных, на котором производится обучение или fine-tuning модели; loss на нём используется для обнаружения переобучения…
wiki70B model
# 70B model ## Определение Языковая модель с 70 миллиардами параметров. Обучение требует распределённых методов, таких как ZeRO-3 и оптимизатор sharding…
wikiS5
# S5 ## Определение Упрощённая версия S4 с улучшенным дизайном, обеспечивающая более эффективное вычисление и обучение. ## Где встречается - [[713. Как работает Mamba…
wikiGoogle Colab
…доступом к GPU/TPU, предназначенная для экспериментов с машинным обучением и анализа данных без локальной настройки. ## Где встречается - [[4. Настроить…
wikiHPC
# HPC ## Определение Область вычислений, использующая мощные кластеры с GPU и высокоскоростными сетями (InfiniBand) для решения ресурсоёмких задач, таких как обучение…
wikiCPU↔GPU transfers
…памятью GPU, являющиеся узким местом при offload и замедляющие обучение в 2-5 раз. ## Где встречается - [[800+ вопросов|800+ вопросов…
wikiLiT
# LiT ## Определение Метод дообучения мультимодальных моделей, при котором image encoder заморожен, а text encoder обучается; ускоряет обучение, например, для SigLIP…
wikiData Filtering
# Data Filtering ## Определение Метод отсева шумных данных перед обучением модели, часто комбинируемый с curriculum learning для улучшения качества. ## Где встречается…
wikiML workload
# ML workload ## Определение Тип вычислительной нагрузки (обучение, инференс, обработка данных), определяющий выбор моделей покупки ресурсов и SLA. ## Где встречается - [[143…
wikiMLOps pipeline
# MLOps pipeline ## Определение CI/CD-пайплайн для автоматизации шагов ML-процесса, таких как обучение, валидация, регистрация моделей и развёртывание. ## Где…
wikibehavior cloning
# behavior cloning ## Определение Метод обучения агента, при котором он имитирует траектории учителя без взаимодействия со средой; частный случай дистилляции. ## Где…
wikiGradient Conditioning
# Gradient Conditioning ## Определение Свойство нормализации (например, LayerNorm) делать градиенты независимыми от масштаба входных значений, улучшая обучение. ## Где встречается - [[654. Как…
wikiHuggingFace Transformers
# HuggingFace Transformers ## Определение Основная библиотека от Hugging Face, предоставляющая архитектуры и инструменты для работы с трансформерами, включая обучение и оценку…
wikiCalibration RM
# Calibration RM ## Определение Обучение reward model предсказывать калиброванные вероятности, например через Platt scaling, для уменьшения reward hacking. ## Где встречается - [[329…
wikicritical workload
# critical workload ## Определение Нагрузка, которая не должна прерываться (например, обучение production-модели); для неё используются reserved или on-demand инстансы…
wikifederated learning
# federated learning ## Определение Парадигма машинного обучения, при которой модель обучается на децентрализованных данных без их централизации. ## Где встречается - [[623. Что…