Поиск
- wikiDownstream quality
…Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…
- wikiinter-judge agreement
…Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…
- wikiactive learning
…Что такое weak supervision для разметки данных для fine-tuning и как его применить]] - [[261. Как вы управляете качеством разметки…
- wikiOLE
…данных. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в production|272. Как вы проверяете качество parsing…
- wikiAccuracy on goldenset
…Используется для контроля качества разметки данных, например, при подготовке DPO-датасетов. ## Где встречается - [[516. Как вы управляете качеством разметки (label…
- wikiConsensus
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
- wikiFleiss' Kappa
…Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…
- wikiGoldenset
…Как вы оцениваете качество retrieval'а в RAG-системе|5. Как вы оцениваете качество retrieval'а в RAG-системе]] - [[6…
- wikiProdigy
# Prodigy ## Определение Инструмент для активного обучения и разметки данных с возможностью калибровки. Позволяет быстро создавать размеченные датасеты, используя итеративный подход…
- wikistructured loss metrics
…потерь, применяемые при извлечении данных из PDF/DOCX. ## Где встречается - [[272. Как вы проверяете качество parsing документов (PDF, DOCX) в…
- wikiLabel Studio
# Label Studio ## Определение Open-source платформа для разметки данных различных типов (текст, изображения, аудио). Поддерживает multiple annotators, консенсус, скоринг и…
- wikiInter-annotator agreement
…Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…
- wikiseed
…Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…
- wikiData Quality
# Data Quality ## Определение Совокупность характеристик данных, определяющих их пригодность для использования в ML-пайплайнах, включая чистоту, полноту и согласованность. Важна…
- wikiAmazon SageMaker Ground Truth
# Amazon SageMaker Ground Truth ## Определение Amazon SageMaker Ground Truth — сервис AWS для разметки данных с контролем качества, включая механизмы консенсуса…
- wikimultiple annotators
…Позволяет уменьшить индивидуальные смещения и повысить качество данных. ## Где встречается - [[871. Как делать pairwise ranking для сравнения моделей|871. Как…
- answerКакой размер датасета нужен для fine-tuning?
…4. [[Вики/Bootstrap estimation\|Бутстреп-оценка]] обучите на 50%, 75%, 100% данных. Если качество растёт линейно — нужно больше. --- ## 9. Ошибки…
- wikiKrippendorff's Alpha
…типов данных и учитывающая пропуски; применяется при оценке качества разметки в RLHF. ## Где встречается - [[261. Как вы управляете качеством разметки…
- wikinegative transfer
# negative transfer ## Определение Явление, когда обучение на синтетических данных или использование рефлексии ухудшает качество модели на реальных данных, увеличивая loss…
- wikiData augmentation
…Как вы оцениваете качество после fine-tuning|25. Как вы оцениваете качество после fine-tuning]] - [[28. Какие данные нужны для…
- wikiLabel quality
# Label quality ## Определение Общее понятие управления качеством разметки данных, включающее процессы обеспечения согласованности, точности и надёжности меток. Критично для DPO…
- answerЧто такое meta-evaluation бенчмарков (оценка оценки)?
…взять одну модель, дообучить её на синтетических данных, похожих на бенчмарк, и посмотреть, изменится ли реальное качество. 8. Написать отчёт…
- wikichunking
…Как вы оцениваете качество retrieval'а в RAG-системе|5. Как вы оцениваете качество retrieval'а в RAG-системе]] - [[13…
- wikiF1
…Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…
- wikisynthetic data collapse
# synthetic data collapse ## Определение Явление деградации модели при обучении на синтетических данных, когда модель теряет качество из-за переобучения на…
- wikiEpsilon
…меньшее значение обеспечивает более сильную защиту данных, но может снижать качество модели. ## Где встречается - [[885. Как происходит PII leakage через…
- wikiHQQ
# HQQ ## Определение Метод квантизации моделей, не требующий калибровочных данных и обеспечивающий качество, сопоставимое с AWQ, при снижении вычислительных затрат. ## Где…
- wikiCohen's Kappa
…Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…
- wikihallucination
…Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…
- wikiPacket loss
# Packet loss ## Определение Сетевое явление, при котором пакеты данных теряются при передаче, вызывая задержки и повторные передачи. Влияет на качество…
- answerКакие LLM для русского языка вы используете?
…Для production-систем критичны: - Качество генерации (адекватность, [[Вики/grammar\|грамматика]], стиль). - Стоимость инференса (токены, time|время GPU). - Контроль данных (юридические…
- wikileniency bias
…Влияет на качество данных для RLHF и требует коррекции. ## Где встречается - [[333. Что такое preference data collection и как минимизировать…
- wikiNMT
…перевода на основе нейросетей, обеспечивающий высокое качество перевода между языками. Применяется для аугментации данных через обратный перевод (back-translation). ## Где…
- wikiPre-ingestion checks
# Pre-ingestion checks ## Определение Pre-ingestion checks — проверки, выполняемые перед добавлением документов в корпус RAG, чтобы обеспечить качество данных. Включают…
- wikicognitive schema
…Как вы делаете retrieval для структурированных данных (SQL, Knowledge Graph)|377. Как вы делаете retrieval для структурированных данных (SQL, Knowledge…
- wikidata validation
# data validation ## Определение Процесс проверки датасета на качество, целостность и происхождение из доверенного источника для предотвращения data poisoning и обеспечения…
- wikitwo-stage training
…модель сначала обучается на синтетических данных, а затем дообучается на реальных, что позволяет улучшить качество и устойчивость. ## Где встречается - [[700…
- answerOpenAI vs Anthropic vs Groq vs Self-hosted — что выбираете?
…OpenAI | Anthropic | Groq | Self-hosted | | :--- | :--- | :--- | :--- | :--- | :--- | | Качество | 0.4 | 9 | 10 | 7 | 7 | | Контроль данных | 0.3 | 0 | 0 | 0 | 10…
- answerКак вы делаете synthetic data для редких языков (не английский)?
…Минусы - Качество перевода может быть низким для языков с малым количеством данных в [[Вики/NLLB\|NLLB]]. - [[Вики/Context loss\|Потеря…
- wikiROUGE
…Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…
- wikiANN индекс
# ANN индекс ## Определение Структура данных для быстрого приближённого поиска ближайших векторов; качество измеряется через recall@k. ## Где встречается - [[9. Как…
- answerКак вы подбираете гиперпараметры для LoRA?
…память, скорость, качество | Параметр | Память | Скорость обучения | Качество | |----------|--------|-------------------|----------| | Увеличение r | ↑ | ↓ (больше параметров) | ↑ (до предела) | | Увеличение alpha | — | — | ↑ (до стабильности) | | Увеличение dropout…
- answerКак вы управляете качеством разметки (label quality) для DPO датасетов?
…Как вы управляете качеством разметки (label quality) для DPO датасетов? ## Краткий тезис Качество разметки — критический фактор успеха **DPO (Direct Preference…
- wikiOutlier detection
# Outlier detection ## Определение Методы выявления аномальных точек данных, используемые для защиты от атак (poisoning, adversarial) и контроля качества данных в…
- wikiOverfitting
# Overfitting ## Определение Переобучение модели, при котором она запоминает особенности обучающего набора вместо обобщения, что ухудшает качество на новых данных. ## Где…
- answerЧто такое IVF (Inverted File Index) и как он сравнивается с HNSW по speed/quality?
…соотношение скорость/качество) | --- ## 9. Практические рекомендации (на примере FAISS) ```python import faiss import numpy as np # Генерация данных d = 128…
- answerКак вы оцениваете качество синтетических данных? (Self-consistency, LLM-as-Judge)
…Как вы оцениваете качество синтетических данных? (Self-consistency, LLM-as-Judge) ## Краткий тезис Оценка качества синтетических данных — критический этап, позволяющий…
- wikiCurriculum Learning
# Curriculum Learning ## Определение Метод обучения модели от простых примеров к сложным, улучшающий конвергенцию и качество. ## Где встречается - [[334. Как вы…
- wikiутечка данных
# утечка данных ## Определение Попадание конфиденциальных или тестовых данных в обучающий набор или ответы модели, приводящее к неверной оценке производительности (контаминация…
- wikiSynthetic dataset
…Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…