Поиск

  • wikiData contract

    …Что такое data contract между сервисами в RAG пайплайне|532. Что такое data contract между сервисами в RAG пайплайне]] - [[861…

  • wikisynthetic data collapse

    # synthetic data collapse ## Определение Явление деградации модели при обучении на синтетических данных, когда модель теряет качество из-за переобучения на…

  • wikidata lineage

    …Как вы проектируете data lineage для RAG (от документа к ответу)|265. Как вы проектируете data lineage для RAG (от…

  • wikiData versioning

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] - [[880. Как проектировать…

  • wikidata validation

    # data validation ## Определение Процесс проверки датасета на качество, целостность и происхождение из доверенного источника для предотвращения data poisoning и обеспечения…

  • wikidata lakehouse

    # data lakehouse ## Определение Архитектура, сочетающая data lake и data warehouse, реализуемая через табличные форматы (Delta Lake, Iceberg). ## Где встречается - [[856…

  • wikisynthetic eval datasets

    # synthetic eval datasets ## Определение Синтетически созданные наборы данных для оценки производительности agentic workflows, имитирующие реальное взаимодействие пользователя с агентом. ## Где…

  • wikiDeequ

    …Используется для data quality monitoring и гарантий в data contract. ## Где встречается - [[275. Как вы делаете data quality monitoring для…

  • wikilate-arriving data

    # late-arriving data ## Определение Данные, поступающие в пайплайн индексации с задержкой относительно времени события. Требуют специальной обработки (водяные знаки, оконные…

  • wikipreference data collection

    # preference data collection ## Определение Процесс сбора человеческих предпочтений в виде триплетов (prompt, chosen, rejected) для обучения reward model или DPO…

  • wikidata lakes

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] - [[858. Как проектировать…

  • wikireal data mixing

    # real data mixing ## Определение Добавление реальных данных в обучающую выборку для предотвращения деградации модели (synthetic data collapse). ## Где встречается - [[688…

  • answerЧто такое data version control (DVC) для RAG корпуса документов?

    …Пересобираем индекс python build_index.py --input data/documents --output data/index dvc add data/index git add data/index…

  • wikiGoogle C4 dataset

    # Google C4 dataset ## Определение Крупный публичный датасет, полученный очисткой веб-корпуса Common Crawl. Применяется для претренировки LLM и проверки перекрытия…

  • wikiSynthetic dataset

    # Synthetic dataset ## Определение Искусственно созданный набор данных, сгенерированный с помощью LLM или других методов, используемый для обучения, fine-tuning или…

  • wikistreaming data

    # streaming data ## Определение Непрерывно поступающие записи (события), требующие немедленной обработки и индексации, например логи, клики или сообщения. ## Где встречается - [[524…

  • wikiData Quality Monitoring

    …Как вы делаете data quality monitoring для RAG корпуса|530. Как вы делаете data quality monitoring для RAG корпуса]] - [[800…

  • wikireal data

    # real data ## Определение Данные, собранные от пользователей, экспертов или из production-логов, используемые для обучения модели в сочетании с синтетическими…

  • wikiHuggingFace dataset

    # HuggingFace dataset ## Определение Формат и источник датасетов на Hugging Face Hub, используемый для загрузки и обработки данных при fine-tuning…

  • wikiGoldenset

    …Как вы делаете data quality monitoring для RAG корпуса|275. Как вы делаете data quality monitoring для RAG корпуса]] - [[503…

  • wikidataset

    # dataset ## Определение Коллекция примеров (например, пар инструкция-ответ) для обучения или оценки модели. ## Где встречается - [[38. Как вы fine-tune…

  • wikiGreat Expectations

    …Как вы делаете data quality monitoring для RAG корпуса|275. Как вы делаете data quality monitoring для RAG корпуса]] - [[530…

  • wikiData Augmentation for Code

    …Настроить data augmentation для кода|272. Настроить data augmentation для кода]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiDataLoader

    # DataLoader ## Определение Компонент PyTorch для батчевой загрузки данных с параллельной обработкой, перемешиванием и кастомной коллацией. ## Где встречается - [[476. Как работает…

  • wikiAnonymized data

    # Anonymized data ## Определение Данные, из которых необратимо удалены или изменены идентификаторы для защиты приватности. ## Где встречается - [[263. Как вы обрабатываете…

  • wikidata cleaning

    # data cleaning ## Определение Процесс очистки данных от PII, дубликатов и токсичности перед обучением модели. ## Где встречается - [[28. Какие данные нужны…

  • wikiMaximum Mean Discrepancy

    …Используется для обнаружения data drift в эмбеддингах. ## Где встречается - [[74. Как вы мониторите дрейф данных (data drift) для RAG|74…

  • wikiдатасеты

    # датасеты ## Определение Наборы данных (например, из Hugging Face Datasets), используемые для регрессионного тестирования, загрузки, обработки и fine-tuning LLM. ## Где…

  • wikiTraining Data Poisoning

    # Training Data Poisoning ## Определение Атака, при которой в обучающие данные внедряются вредоносные примеры, чтобы модель усвоила бэкдоры или неправильное поведение…

  • wikiData Exchange

    # Data Exchange ## Определение Обмен данными между шагами пайплайна, обеспечивающий передачу информации между компонентами. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация…

  • answerКак вы комбинируете реальные и синтетические данные для максимального качества?

    …1 часть [[Вики/real data\|real]] : 3 части [[Вики/Synthetic dataset\|synthetic]]** (25% [[Вики/real data\|real]], 75% [[Вики/Synthetic…

  • wikiDistributed Data Parallel

    # Distributed Data Parallel ## Определение Метод распределённого обучения с полной копией модели на каждом GPU и синхронизацией градиентов через AllReduce. ## Где…

  • wikiasync data movement

    # async data movement ## Определение Механизм асинхронной пересылки данных между памятью и вычислительными блоками, ускоряющий работу алгоритмов внимания. ## Где встречается - [[800…

  • wikiCI validation

    # CI validation ## Определение Процесс автоматической проверки data contracts в CI/CD пайплайне для обеспечения совместимости схем данных. ## Где встречается - [[532…

  • wikiMarquez

    # Marquez ## Определение Open-source платформа для сбора, визуализации и управления data lineage, работающая поверх OpenLineage. ## Где встречается - [[265. Как вы…

  • wikiутечка данных

    …Как вы детектируете data contamination в evaluation датасетах|350. Как вы детектируете data contamination в evaluation датасетах]] - [[488. Что такое…

  • wikidata transfers

    # data transfers ## Определение Передача больших объёмов данных между CPU и GPU, которая может стать узким местом при профилировании производительности инференса…

  • wikiDatadog APM

    # Datadog APM ## Определение Компонент Datadog для мониторинга производительности приложений с поддержкой распределённой трассировки. ## Где встречается - [[824. Как организовать distributed tracing…

  • wikisynthetic data generation

    # synthetic data generation ## Определение Процесс создания искусственных данных (вопросов, пар вопрос-ответ) с помощью LLM для обучения, дообучения или оценки…

  • wikiOpenLineage

    # OpenLineage ## Определение Открытый стандарт и набор библиотек для сбора метаданных о передаче данных между компонентами (data lineage), обеспечивающий отслеживание происхождения…

  • wikiCSV datasource

    # CSV datasource ## Определение CSV datasource — тип источника данных в Grafana, позволяющий загружать и визуализировать данные из CSV-файлов, например симулированные…

  • wikiDBT

    …Как вы делаете data quality monitoring для RAG корпуса|530. Как вы делаете data quality monitoring для RAG корпуса]] - [[858…

  • wikiData Quality

    …Как вы делаете data quality monitoring для RAG корпуса|275. Как вы делаете data quality monitoring для RAG корпуса]] ## Навигация…

  • wikiTraining dataset

    # Training dataset ## Определение Снапшот данных на конкретную дату, создаваемый из feature groups с point-in-time join в Hopsworks. ## Где…

  • wikisynthetic generation

    …Как вы делаете synthetic data generation для редких классов в датасете|523. Как вы делаете synthetic data generation для редких…

  • wikiData card

    # Data card ## Определение Документация датасета с указанием назначения, ограничений и метрик, аналогичная model card. ## Где встречается - [[732. Что такое EU…

  • wikiData residency

    # Data residency ## Определение Требование к данным оставаться в пределах определённой юрисдикции, влияющее на выбор региона для хранения и обработки, а…

  • wikipandas DataFrame

    # pandas DataFrame ## Определение Основная структура данных библиотеки pandas для представления табличных данных, применяемая для хранения, анализа и трансформации данных. ## Где…

  • wikireprocess strategy

    # reprocess strategy ## Определение Стратегия обработки данных, поступивших с задержкой (late-arriving data), при которой документы переобрабатываются с обновлением метаданных для…

  • wikidata locality

    # data locality ## Определение Размещение часто запрашиваемых вместе данных на одном шарде для снижения сетевого трафика. Планирование compute рядом с данными…