Data Deduplication

Определение

Data Deduplication (дедупликация данных) — процесс выявления и удаления дублирующихся записей в наборе данных, направленный на повышение качества обучения ML-моделей. В контексте pre-training LLM это критически важный этап фильтрации данных, так как дубликаты могут исказить распределение признаков и снизить обобщающую способность модели. Обычно выполняется с использованием хэш-функций (например, MinHash) или методов сравнения текстовой близости.

Где встречается

951. Что такое Fine-tuning LLM? Чем отличается от обучения с нуля (pre-training) с точки зрения данных и вычислительных затрат

Data Deduplication

Data Deduplication

Определение

Где встречается

Навигация