Поиск
- wikiend-to-end обучение
# end-to-end обучение ## Определение Подход обучения, при котором все компоненты модели обучаются совместно, как в Fuyu-8B. ## Где встречается…
- wikilearning from failure
# learning from failure ## Определение Практика извлечения уроков из инцидентов для улучшения системы; ключевая цель blameless postmortem. ## Где встречается - [[265. Создать…
- wikiPerplexity gain
…Как работает Toolformer (обучение агента использованию инструментов)|898. Как работает Toolformer (обучение агента использованию инструментов)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiStudent Agent
…Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…
- wikiTeacher Agent
…Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…
- wikiCache Agent
…Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…
- wikiLoss masking
…Как работает Toolformer (обучение агента использованию инструментов)|898. Как работает Toolformer (обучение агента использованию инструментов)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikimeta-learning
# meta-learning ## Определение Парадигма, в которой модель учится оптимальному представлению или стратегии для новых задач на основе нескольких примеров, что…
- wikidistributed training
# distributed training ## Определение Метод обучения модели на нескольких GPU или узлах с использованием параллелизма данных или модели, часто с техниками…
- wikiIterated Training
…обучение модели вознаграждения, обучение политики с PPO, сбор новых предпочтений, дообучение модели вознаграждения. Применяется для предотвращения reward hacking. ## Где встречается…
- wikiagent distillation
…Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…
- wikiToolformer
…Как работает Toolformer (обучение агента использованию инструментов)|898. Как работает Toolformer (обучение агента использованию инструментов)]] - [[800+ вопросов|800+ вопросов]] ## Навигация…
- wikiOnline learning
# Online learning ## Определение Инкрементальное обновление модели по мере поступления данных без переобучения с нуля, подходит для retrieval-ранжировщиков и агентов…
- wikiSFT
…Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…
- wikiтраектория агента
…Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…
- wikiEnd-to-end
# End-to-end ## Определение Подход, при котором система или обучение работают от начала до конца без разделения на отдельные модули…
- wikinext token prediction
…Как работает Toolformer (обучение агента использованию инструментов)|898. Как работает Toolformer (обучение агента использованию инструментов)]] - [[800+ вопросов|800+ вопросов]] ## Навигация…
- wikiEdge deployment
…Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…
- wikicontinuous learning
# continuous learning ## Определение Парадигма обучения, при которой модель непрерывно адаптируется к новым данным без катастрофического забывания. Используются техники вроде EWC…
- wikiself-supervision
…Как работает Toolformer (обучение агента использованию инструментов)|898. Как работает Toolformer (обучение агента использованию инструментов)]] - [[Практика|Практика]] - [[800+ вопросов|800…
- wikiSGDClassifier
# SGDClassifier ## Определение Линейный классификатор с стохастическим градиентным спуском, поддерживающий инкрементальное обучение (partial_fit). ## Где встречается - [[275. Реализовать active learning loop…
- wikireward delay
# reward delay ## Определение Агент не получает обратной связи до конца эпизода, что затрудняет обучение. ## Где встречается - [[800+ вопросов|800+ вопросов…
- wikiGAN-style
# GAN-style ## Определение Соревновательное обучение, как в GAN, используется в competitive паттерне multi-agent систем. ## Где встречается - [[800+ вопросов|800…
- wikiStep-level supervision
# Step-level supervision ## Определение Обучение на метках правильности каждого шага траектории агента. ## Где встречается - [[65. Реализовать process reward model|65…
- wikiend-to-end learning
# end-to-end learning ## Определение Подход обучения модели без разделения на отдельные этапы; преимущество архитектуры Fuyu-8B. ## Где встречается - [[800…
- wikiML Engineer
# ML Engineer ## Определение Роль инженера, отвечающего за разработку, обучение и внедрение моделей машинного обучения, включая fine-tuning и создание эмбеддингов…
- wikiclosed-form solution
# closed-form solution ## Определение Решение, которое даёт возможность напрямую вычислить оптимальную политику, минуя итеративное обучение модели вознаграждения. Применяется в методах…
- wikiNER model
# NER model ## Определение Модель для распознавания именованных сущностей, применяемая для детекции PII в данных перед обучением или в RAG-пайплайне…
- wikierror accumulation
…Что такое agent distillation (обучение маленького агента на траекториях большого)|584. Что такое agent distillation (обучение маленького агента на траекториях…
- wikiPII redaction
# PII redaction ## Определение Удаление персонально идентифицируемой информации из документов перед индексацией или обучением. Критично для систем, работающих с конфиденциальными данными…
- answerКак работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?
…Такой подход обеспечивает сквозное обучение без дополнительных модусов слияния (fusion). ## 1. Термин: мультимодальное выравнивание (alignment) [[Вики/safety alignment\|Мультимодальное выравнивание…
- wikitokens per word
…Меньшее значение снижает затраты на обучение и инференс. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов|Индекс терминов…
- wikitrajectory distillation
# trajectory distillation ## Определение Обучение маленькой модели (студента) генерировать короткие траектории, имитируя успешные траектории большой модели (учителя). ## Где встречается - [[895. Как…
- wikiSynthetic batch
# Synthetic batch ## Определение Искусственный мини-батч данных, используемый для быстрой проверки корректности прямого прохода модели (forward pass) перед полноценным обучением…
- wikiTrain set
# Train set ## Определение Набор данных, на котором производится обучение или fine-tuning модели; loss на нём используется для обнаружения переобучения…
- wiki70B model
# 70B model ## Определение Языковая модель с 70 миллиардами параметров. Обучение требует распределённых методов, таких как ZeRO-3 и оптимизатор sharding…
- wikiS5
# S5 ## Определение Упрощённая версия S4 с улучшенным дизайном, обеспечивающая более эффективное вычисление и обучение. ## Где встречается - [[713. Как работает Mamba…
- wikiGoogle Colab
…доступом к GPU/TPU, предназначенная для экспериментов с машинным обучением и анализа данных без локальной настройки. ## Где встречается - [[4. Настроить…
- wikiHPC
# HPC ## Определение Область вычислений, использующая мощные кластеры с GPU и высокоскоростными сетями (InfiniBand) для решения ресурсоёмких задач, таких как обучение…
- wikiCPU↔GPU transfers
…памятью GPU, являющиеся узким местом при offload и замедляющие обучение в 2-5 раз. ## Где встречается - [[800+ вопросов|800+ вопросов…
- wikiLiT
# LiT ## Определение Метод дообучения мультимодальных моделей, при котором image encoder заморожен, а text encoder обучается; ускоряет обучение, например, для SigLIP…
- wikiData Filtering
# Data Filtering ## Определение Метод отсева шумных данных перед обучением модели, часто комбинируемый с curriculum learning для улучшения качества. ## Где встречается…
- wikiML workload
# ML workload ## Определение Тип вычислительной нагрузки (обучение, инференс, обработка данных), определяющий выбор моделей покупки ресурсов и SLA. ## Где встречается - [[143…
- wikiMLOps pipeline
# MLOps pipeline ## Определение CI/CD-пайплайн для автоматизации шагов ML-процесса, таких как обучение, валидация, регистрация моделей и развёртывание. ## Где…
- wikibehavior cloning
# behavior cloning ## Определение Метод обучения агента, при котором он имитирует траектории учителя без взаимодействия со средой; частный случай дистилляции. ## Где…
- wikiGradient Conditioning
# Gradient Conditioning ## Определение Свойство нормализации (например, LayerNorm) делать градиенты независимыми от масштаба входных значений, улучшая обучение. ## Где встречается - [[654. Как…
- wikiHuggingFace Transformers
# HuggingFace Transformers ## Определение Основная библиотека от Hugging Face, предоставляющая архитектуры и инструменты для работы с трансформерами, включая обучение и оценку…
- wikiCalibration RM
# Calibration RM ## Определение Обучение reward model предсказывать калиброванные вероятности, например через Platt scaling, для уменьшения reward hacking. ## Где встречается - [[329…
- wikicritical workload
# critical workload ## Определение Нагрузка, которая не должна прерываться (например, обучение production-модели); для неё используются reserved или on-demand инстансы…
- wikifederated learning
# federated learning ## Определение Парадигма машинного обучения, при которой модель обучается на децентрализованных данных без их централизации. ## Где встречается - [[623. Что…