MinHash
MinHash
Определение
Вероятностный алгоритм для оценки сходства множеств (Jaccard similarity), применяемый для дедупликации текстовых документов в RAG и near-duplicate detection.
Где встречается
- 257. Как вы дедуплицируете документы перед индексацией в RAG
- 259. Как вы генерируете synthetic данные для instruction tuning
- 275. Как вы делаете data quality monitoring для RAG корпуса
- 488. Что такое benchmark contamination и как ее детектировать
- 525. Как вы управляете cost хранения векторной БД при миллиарде векторов
- 685. Как вы детектируете и удаляете низкокачественные примеры из синтетического датасета
- 689. Как вы проектируете dynamic benchmark (меняющийся со временем)
- 869. Как избежать benchmark contamination (когда модель видела тестовые данные)
- 888. Как защититься от prompt stealing (кража системного промпта)
- 800+ вопросов
- 271. Реализовать synthetic eval для агента