Data Deduplication
Data Deduplication
Определение
Data Deduplication (дедупликация данных) — процесс выявления и удаления дублирующихся записей в наборе данных, направленный на повышение качества обучения ML-моделей. В контексте pre-training LLM это критически важный этап фильтрации данных, так как дубликаты могут исказить распределение признаков и снизить обобщающую способность модели. Обычно выполняется с использованием хэш-функций (например, MinHash) или методов сравнения текстовой близости.