Поиск
- wikiData contract
…Что такое data contract между сервисами в RAG пайплайне|532. Что такое data contract между сервисами в RAG пайплайне]] - [[861…
- wikisynthetic data collapse
# synthetic data collapse ## Определение Явление деградации модели при обучении на синтетических данных, когда модель теряет качество из-за переобучения на…
- wikidata lineage
…Как вы проектируете data lineage для RAG (от документа к ответу)|265. Как вы проектируете data lineage для RAG (от…
- wikiData versioning
…Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] - [[880. Как проектировать…
- wikidata validation
# data validation ## Определение Процесс проверки датасета на качество, целостность и происхождение из доверенного источника для предотвращения data poisoning и обеспечения…
- wikidata lakehouse
# data lakehouse ## Определение Архитектура, сочетающая data lake и data warehouse, реализуемая через табличные форматы (Delta Lake, Iceberg). ## Где встречается - [[856…
- wikisynthetic eval datasets
# synthetic eval datasets ## Определение Синтетически созданные наборы данных для оценки производительности agentic workflows, имитирующие реальное взаимодействие пользователя с агентом. ## Где…
- wikiDeequ
…Используется для data quality monitoring и гарантий в data contract. ## Где встречается - [[275. Как вы делаете data quality monitoring для…
- wikilate-arriving data
# late-arriving data ## Определение Данные, поступающие в пайплайн индексации с задержкой относительно времени события. Требуют специальной обработки (водяные знаки, оконные…
- wikipreference data collection
# preference data collection ## Определение Процесс сбора человеческих предпочтений в виде триплетов (prompt, chosen, rejected) для обучения reward model или DPO…
- wikidata lakes
…Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] - [[858. Как проектировать…
- wikireal data mixing
# real data mixing ## Определение Добавление реальных данных в обучающую выборку для предотвращения деградации модели (synthetic data collapse). ## Где встречается - [[688…
- answerЧто такое data version control (DVC) для RAG корпуса документов?
…Пересобираем индекс python build_index.py --input data/documents --output data/index dvc add data/index git add data/index…
- wikiGoogle C4 dataset
# Google C4 dataset ## Определение Крупный публичный датасет, полученный очисткой веб-корпуса Common Crawl. Применяется для претренировки LLM и проверки перекрытия…
- wikiSynthetic dataset
# Synthetic dataset ## Определение Искусственно созданный набор данных, сгенерированный с помощью LLM или других методов, используемый для обучения, fine-tuning или…
- wikistreaming data
# streaming data ## Определение Непрерывно поступающие записи (события), требующие немедленной обработки и индексации, например логи, клики или сообщения. ## Где встречается - [[524…
- wikiData Quality Monitoring
…Как вы делаете data quality monitoring для RAG корпуса|530. Как вы делаете data quality monitoring для RAG корпуса]] - [[800…
- wikireal data
# real data ## Определение Данные, собранные от пользователей, экспертов или из production-логов, используемые для обучения модели в сочетании с синтетическими…
- wikiHuggingFace dataset
# HuggingFace dataset ## Определение Формат и источник датасетов на Hugging Face Hub, используемый для загрузки и обработки данных при fine-tuning…
- wikiGoldenset
…Как вы делаете data quality monitoring для RAG корпуса|275. Как вы делаете data quality monitoring для RAG корпуса]] - [[503…
- wikidataset
# dataset ## Определение Коллекция примеров (например, пар инструкция-ответ) для обучения или оценки модели. ## Где встречается - [[38. Как вы fine-tune…
- wikiGreat Expectations
…Как вы делаете data quality monitoring для RAG корпуса|275. Как вы делаете data quality monitoring для RAG корпуса]] - [[530…
- wikiData Augmentation for Code
…Настроить data augmentation для кода|272. Настроить data augmentation для кода]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiDataLoader
# DataLoader ## Определение Компонент PyTorch для батчевой загрузки данных с параллельной обработкой, перемешиванием и кастомной коллацией. ## Где встречается - [[476. Как работает…
- wikiAnonymized data
# Anonymized data ## Определение Данные, из которых необратимо удалены или изменены идентификаторы для защиты приватности. ## Где встречается - [[263. Как вы обрабатываете…
- wikidata cleaning
# data cleaning ## Определение Процесс очистки данных от PII, дубликатов и токсичности перед обучением модели. ## Где встречается - [[28. Какие данные нужны…
- wikiMaximum Mean Discrepancy
…Используется для обнаружения data drift в эмбеддингах. ## Где встречается - [[74. Как вы мониторите дрейф данных (data drift) для RAG|74…
- wikiдатасеты
# датасеты ## Определение Наборы данных (например, из Hugging Face Datasets), используемые для регрессионного тестирования, загрузки, обработки и fine-tuning LLM. ## Где…
- wikiTraining Data Poisoning
# Training Data Poisoning ## Определение Атака, при которой в обучающие данные внедряются вредоносные примеры, чтобы модель усвоила бэкдоры или неправильное поведение…
- wikiData Exchange
# Data Exchange ## Определение Обмен данными между шагами пайплайна, обеспечивающий передачу информации между компонентами. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация…
- answerКак вы комбинируете реальные и синтетические данные для максимального качества?
…1 часть [[Вики/real data\|real]] : 3 части [[Вики/Synthetic dataset\|synthetic]]** (25% [[Вики/real data\|real]], 75% [[Вики/Synthetic…
- wikiDistributed Data Parallel
# Distributed Data Parallel ## Определение Метод распределённого обучения с полной копией модели на каждом GPU и синхронизацией градиентов через AllReduce. ## Где…
- wikiasync data movement
# async data movement ## Определение Механизм асинхронной пересылки данных между памятью и вычислительными блоками, ускоряющий работу алгоритмов внимания. ## Где встречается - [[800…
- wikiCI validation
# CI validation ## Определение Процесс автоматической проверки data contracts в CI/CD пайплайне для обеспечения совместимости схем данных. ## Где встречается - [[532…
- wikiMarquez
# Marquez ## Определение Open-source платформа для сбора, визуализации и управления data lineage, работающая поверх OpenLineage. ## Где встречается - [[265. Как вы…
- wikiутечка данных
…Как вы детектируете data contamination в evaluation датасетах|350. Как вы детектируете data contamination в evaluation датасетах]] - [[488. Что такое…
- wikidata transfers
# data transfers ## Определение Передача больших объёмов данных между CPU и GPU, которая может стать узким местом при профилировании производительности инференса…
- wikiDatadog APM
# Datadog APM ## Определение Компонент Datadog для мониторинга производительности приложений с поддержкой распределённой трассировки. ## Где встречается - [[824. Как организовать distributed tracing…
- wikisynthetic data generation
# synthetic data generation ## Определение Процесс создания искусственных данных (вопросов, пар вопрос-ответ) с помощью LLM для обучения, дообучения или оценки…
- wikiOpenLineage
# OpenLineage ## Определение Открытый стандарт и набор библиотек для сбора метаданных о передаче данных между компонентами (data lineage), обеспечивающий отслеживание происхождения…
- wikiCSV datasource
# CSV datasource ## Определение CSV datasource — тип источника данных в Grafana, позволяющий загружать и визуализировать данные из CSV-файлов, например симулированные…
- wikiDBT
…Как вы делаете data quality monitoring для RAG корпуса|530. Как вы делаете data quality monitoring для RAG корпуса]] - [[858…
- wikiData Quality
…Как вы делаете data quality monitoring для RAG корпуса|275. Как вы делаете data quality monitoring для RAG корпуса]] ## Навигация…
- wikiTraining dataset
# Training dataset ## Определение Снапшот данных на конкретную дату, создаваемый из feature groups с point-in-time join в Hopsworks. ## Где…
- wikisynthetic generation
…Как вы делаете synthetic data generation для редких классов в датасете|523. Как вы делаете synthetic data generation для редких…
- wikiData card
# Data card ## Определение Документация датасета с указанием назначения, ограничений и метрик, аналогичная model card. ## Где встречается - [[732. Что такое EU…
- wikiData residency
# Data residency ## Определение Требование к данным оставаться в пределах определённой юрисдикции, влияющее на выбор региона для хранения и обработки, а…
- wikipandas DataFrame
# pandas DataFrame ## Определение Основная структура данных библиотеки pandas для представления табличных данных, применяемая для хранения, анализа и трансформации данных. ## Где…
- wikireprocess strategy
# reprocess strategy ## Определение Стратегия обработки данных, поступивших с задержкой (late-arriving data), при которой документы переобрабатываются с обновлением метаданных для…
- wikidata locality
# data locality ## Определение Размещение часто запрашиваемых вместе данных на одном шарде для снижения сетевого трафика. Планирование compute рядом с данными…