Поиск
- wikijoint training
# joint training ## Определение Метод обучения, при котором в каждом батче смешиваются реальные и синтетические данные для повышения качества и устойчивости…
- wikiloss of diversity
# loss of diversity ## Определение Явление, при котором синтетические данные теряют разнообразие: редкие варианты ответов исчезают, что ведёт к деградации модели…
- wikireal data
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- wikibias amplification
…Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные…
- wikiSelf-instruct
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- wikiensemble generation
…Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные…
- wikireal data mixing
…Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные…
- wikiGoogle T5X
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- wikitemplate-based generation
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- wikiEmbedding diversity
…Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные…
- wikitwo-stage training
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- wikiNeMo
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- wikiself-play
…Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные…
- wikiAdversarial generation
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- wikisynthetic data collapse
…Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные…
- wikiHellaSwag
…Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные…
- wikigenerator
…Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные…
- wikiSynthetic dataset
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- wikiself-BLEU
…Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные…
- wikiCurriculum Learning
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- wikirare languages
# rare languages ## Определение Языки с ограниченными ресурсами (не английский), для которых создают синтетические данные или применяют специальные техники адаптации моделей…
- wikierror accumulation
…Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные…
- wikiHuman evaluation
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- wikibatch mix
# batch mix ## Определение Стратегия формирования батча, при которой в одном пакете смешиваются реальные и синтетические данные в заданном соотношении (например…
- wikidiversity
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- wikiDistinct-N
…Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные…
- wikiHybrid eval-set
…на 50% из реальных запросов, для предотвращения переобучения на синтетические данные (synthetic eval collapse). ## Где встречается - [[494. Что такое synthetic…
- wikipre-training
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- wikisynthetic eval collapse
# synthetic eval collapse ## Определение Деградация качества оценки модели, когда синтетические тестовые данные перестают отражать реальное распределение задач, что приводит к…
- answerКак вы обнаруживаете contamination (пересечение synthetic данных с тестовыми)?
…Почему contamination особенно актуальна для synthetic данных? [[Вики/Self-instruct\|Синтетические данные]] часто генерируются с помощью больших языковых моделей, которые…
- wikibrute force
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- answerЧто такое synthetic data collapse (когда синтетические данные деградируют со временем)?
…Что такое synthetic data collapse (когда синтетические данные деградируют со временем)? ## Краткий тезис Synthetic data collapse — это явление, при котором…
- wikiback-translation
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- wikiMMLU
…Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные…
- answerКак вы делаете synthetic data для сложного рассуждения (math, code)?
…Как вы делаете synthetic data для сложного рассуждения (math, code)? ## Краткий тезис [[Вики/Synthetic dataset\|Синтетические данные]] для сложного рассуждения…
- answerКак вы делаете synthetic data generation для редких классов в датасете?
…синтетические данные, редкий класс и дисбаланс **[[Вики/Synthetic dataset\|Синтетические данные]]** — искусственно созданные примеры, имитирующие [[Вики/probability distribution\|распределение]] реальных…
- wikiOverfitting
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- answerЧто такое synthetic eval collapse и как его предотвратить?
…Почему синтетические данные так популярны в eval? **[[Вики/Synthetic dataset\|Синтетические данные]]** — это искусственно сгенерированные примеры (вопрос-ответ, диалоги, инструкции…
- wikiHoldout set
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- wikiData augmentation
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- answerКак вы делаете synthetic data для редких языков (не английский)?
…Для редких языков (например, башкирский, суахили, кечуа) реальных текстов в открытом доступе крайне мало, поэтому [[Вики/Synthetic dataset\|синтетические данные…
- answerКак вы комбинируете реальные и синтетические данные для максимального качества?
…Зачем комбинировать реальные и синтетические данные? Реальные данные ([[Вики/real data\|real data]]) — это примеры, собранные от пользователей, экспертов или…
- wikiTinyLlama
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- answerКак вы оцениваете, сколько синтетических данных нужно для fine-tuning (power analysis)?
…Зачем это нужно [[Вики/Synthetic dataset\|Синтетические данные]] стоят денег (вызовы LLM-генератора, [[Вики/Validation set\|валидация]]). Бесконечное наращивание объёма…
- wikiдатасеты
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- wikiHugging Face TRL
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- wikiTop-p (nucleus) sampling
…Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные…
- answerЧто такое active learning для сбора синтетических данных?
…Преимущества active learning + синтетические данные - [[Вики/Efficiency\|Эффективность]] использования ресурсов — не нужно размечать все данные, только самые полезные. - [[Вики/coverage…
- wikiутечка данных
…Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные…
- answerКак вы измеряете diversity синтетического датасета?
…В [[Вики/Agentic RAG\|Agentic RAG]] [[Вики/Synthetic dataset\|синтетические данные]] используются для [[Вики/SFT\|fine-tuning]] ретривера или генератора…