Поиск

  • wikiDownstream quality

    …Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…

  • wikiinter-judge agreement

    …Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…

  • wikiactive learning

    …Что такое weak supervision для разметки данных для fine-tuning и как его применить]] - [[261. Как вы управляете качеством разметки…

  • wikiOLE

    данных. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в production|272. Как вы проверяете качество parsing…

  • wikiAccuracy on goldenset

    …Используется для контроля качества разметки данных, например, при подготовке DPO-датасетов. ## Где встречается - [[516. Как вы управляете качеством разметки (label…

  • wikiConsensus

    …Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…

  • wikiFleiss' Kappa

    …Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…

  • wikiGoldenset

    …Как вы оцениваете качество retrieval'а в RAG-системе|5. Как вы оцениваете качество retrieval'а в RAG-системе]] - [[6…

  • wikiProdigy

    # Prodigy ## Определение Инструмент для активного обучения и разметки данных с возможностью калибровки. Позволяет быстро создавать размеченные датасеты, используя итеративный подход…

  • wikistructured loss metrics

    …потерь, применяемые при извлечении данных из PDF/DOCX. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в…

  • wikiLabel Studio

    # Label Studio ## Определение Open-source платформа для разметки данных различных типов (текст, изображения, аудио). Поддерживает multiple annotators, консенсус, скоринг и…

  • wikiInter-annotator agreement

    …Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…

  • wikiseed

    …Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…

  • wikiData Quality

    # Data Quality ## Определение Совокупность характеристик данных, определяющих их пригодность для использования в ML-пайплайнах, включая чистоту, полноту и согласованность. Важна…

  • wikiAmazon SageMaker Ground Truth

    # Amazon SageMaker Ground Truth ## Определение Amazon SageMaker Ground Truth — сервис AWS для разметки данных с контролем качества, включая механизмы консенсуса…

  • wikimultiple annotators

    …Позволяет уменьшить индивидуальные смещения и повысить качество данных. ## Где встречается - [[871. Как делать pairwise ranking для сравнения моделей|871. Как…

  • answerКакой размер датасета нужен для fine-tuning?

    …4. [[Вики/Bootstrap estimation\|Бутстреп-оценка]] обучите на 50%, 75%, 100% данных. Если качество растёт линейно — нужно больше. --- ## 9. Ошибки…

  • wikiKrippendorff's Alpha

    …типов данных и учитывающая пропуски; применяется при оценке качества разметки в RLHF. ## Где встречается - [[261. Как вы управляете качеством разметки…

  • wikinegative transfer

    # negative transfer ## Определение Явление, когда обучение на синтетических данных или использование рефлексии ухудшает качество модели на реальных данных, увеличивая loss…

  • wikiData augmentation

    …Как вы оцениваете качество после fine-tuning|25. Как вы оцениваете качество после fine-tuning]] - [[28. Какие данные нужны для…

  • wikiLabel quality

    # Label quality ## Определение Общее понятие управления качеством разметки данных, включающее процессы обеспечения согласованности, точности и надёжности меток. Критично для DPO…

  • answerЧто такое meta-evaluation бенчмарков (оценка оценки)?

    …взять одну модель, дообучить её на синтетических данных, похожих на бенчмарк, и посмотреть, изменится ли реальное качество. 8. Написать отчёт…

  • wikichunking

    …Как вы оцениваете качество retrieval'а в RAG-системе|5. Как вы оцениваете качество retrieval'а в RAG-системе]] - [[13…

  • wikiF1

    …Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…

  • wikisynthetic data collapse

    # synthetic data collapse ## Определение Явление деградации модели при обучении на синтетических данных, когда модель теряет качество из-за переобучения на…

  • wikiEpsilon

    …меньшее значение обеспечивает более сильную защиту данных, но может снижать качество модели. ## Где встречается - [[885. Как происходит PII leakage через…

  • wikiHQQ

    # HQQ ## Определение Метод квантизации моделей, не требующий калибровочных данных и обеспечивающий качество, сопоставимое с AWQ, при снижении вычислительных затрат. ## Где…

  • wikiCohen's Kappa

    …Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…

  • wikihallucination

    …Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…

  • wikiPacket loss

    # Packet loss ## Определение Сетевое явление, при котором пакеты данных теряются при передаче, вызывая задержки и повторные передачи. Влияет на качество

  • answerКакие LLM для русского языка вы используете?

    …Для production-систем критичны: - Качество генерации (адекватность, [[Вики/grammar\|грамматика]], стиль). - Стоимость инференса (токены, time|время GPU). - Контроль данных (юридические…

  • wikileniency bias

    …Влияет на качество данных для RLHF и требует коррекции. ## Где встречается - [[333. Что такое preference data collection и как минимизировать…

  • wikiNMT

    …перевода на основе нейросетей, обеспечивающий высокое качество перевода между языками. Применяется для аугментации данных через обратный перевод (back-translation). ## Где…

  • wikiPre-ingestion checks

    # Pre-ingestion checks ## Определение Pre-ingestion checks — проверки, выполняемые перед добавлением документов в корпус RAG, чтобы обеспечить качество данных. Включают…

  • wikicognitive schema

    …Как вы делаете retrieval для структурированных данных (SQL, Knowledge Graph)|377. Как вы делаете retrieval для структурированных данных (SQL, Knowledge…

  • wikidata validation

    # data validation ## Определение Процесс проверки датасета на качество, целостность и происхождение из доверенного источника для предотвращения data poisoning и обеспечения…

  • wikitwo-stage training

    …модель сначала обучается на синтетических данных, а затем дообучается на реальных, что позволяет улучшить качество и устойчивость. ## Где встречается - [[700…

  • answerOpenAI vs Anthropic vs Groq vs Self-hosted — что выбираете?

    …OpenAI | Anthropic | Groq | Self-hosted | | :--- | :--- | :--- | :--- | :--- | :--- | | Качество | 0.4 | 9 | 10 | 7 | 7 | | Контроль данных | 0.3 | 0 | 0 | 0 | 10…

  • answerКак вы делаете synthetic data для редких языков (не английский)?

    …Минусы - Качество перевода может быть низким для языков с малым количеством данных в [[Вики/NLLB\|NLLB]]. - [[Вики/Context loss\|Потеря…

  • wikiROUGE

    …Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…

  • wikiANN индекс

    # ANN индекс ## Определение Структура данных для быстрого приближённого поиска ближайших векторов; качество измеряется через recall@k. ## Где встречается - [[9. Как…

  • answerКак вы подбираете гиперпараметры для LoRA?

    …память, скорость, качество | Параметр | Память | Скорость обучения | Качество | |----------|--------|-------------------|----------| | Увеличение r | ↑ | ↓ (больше параметров) | ↑ (до предела) | | Увеличение alpha | — | — | ↑ (до стабильности) | | Увеличение dropout…

  • answerКак вы управляете качеством разметки (label quality) для DPO датасетов?

    …Как вы управляете качеством разметки (label quality) для DPO датасетов? ## Краткий тезис Качество разметки — критический фактор успеха **DPO (Direct Preference…

  • wikiOutlier detection

    # Outlier detection ## Определение Методы выявления аномальных точек данных, используемые для защиты от атак (poisoning, adversarial) и контроля качества данных в…

  • wikiOverfitting

    # Overfitting ## Определение Переобучение модели, при котором она запоминает особенности обучающего набора вместо обобщения, что ухудшает качество на новых данных. ## Где…

  • answerЧто такое IVF (Inverted File Index) и как он сравнивается с HNSW по speed/quality?

    …соотношение скорость/качество) | --- ## 9. Практические рекомендации (на примере FAISS) ```python import faiss import numpy as np # Генерация данных d = 128…

  • answerКак вы оцениваете качество синтетических данных? (Self-consistency, LLM-as-Judge)

    …Как вы оцениваете качество синтетических данных? (Self-consistency, LLM-as-Judge) ## Краткий тезис Оценка качества синтетических данных — критический этап, позволяющий…

  • wikiCurriculum Learning

    # Curriculum Learning ## Определение Метод обучения модели от простых примеров к сложным, улучшающий конвергенцию и качество. ## Где встречается - [[334. Как вы…

  • wikiутечка данных

    # утечка данных ## Определение Попадание конфиденциальных или тестовых данных в обучающий набор или ответы модели, приводящее к неверной оценке производительности (контаминация…

  • wikiSynthetic dataset

    …Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…