Cosine similarity
Cosine similarity
Определение
Мера сходства двух векторов, равная косинусу угла между ними. Значения лежат в диапазоне от -1 до 1 (для неотрицательных векторов — от 0 до 1). В NLP часто применяется для сравнения эмбеддингов текстов: чем ближе значение к 1, тем более семантически похожи тексты. Для задачи поиска дубликатов (near‑duplicate) обычно устанавливают порог, например, >0.92.