Data leakage
Data leakage
Определение
Data leakage (утечка данных) — это ситуация, когда модель машинного обучения получает доступ к информации, которая не должна быть ей известна на этапе обучения, например, через дубликаты или семантически похожие тексты в тренировочном и тестовом наборах. Это приводит к нереалистично высоким показателям производительности на валидации, которые не воспроизводятся на новых данных. Утечка данных является одной из самых распространенных ошибок при построении ML-пайплайнов.