Datasketch
Datasketch
Определение
Библиотека для реализации MinHash и MinHashLSH, применяемая для дедупликации документов и анти-контаминации при подготовке датасетов.
Где встречается
- 257. Как вы дедуплицируете документы перед индексацией в RAG
- 689. Как вы проектируете dynamic benchmark (меняющийся со временем)