косинусная близость
косинусная близость
Определение
Мера сходства между двумя векторами, вычисляемая как косинус угла между ними. Используется для сравнения эмбеддингов в задачах retrieval, поиска похожих объектов и оценки семантической близости.
Где встречается
- 3 Какие стратегии chunking'а вы знаете и когда какую применяете
- 8. Как вы обрабатываете запросы, на которые нет ответа в документах
- 11. Что такое Hypothetical Document Embeddings (HyDE) и зачем
- 15. Какие embedding-модели вы использовали и почему
- 28. Какие данные нужны для fine-tuning на кастомный стиль общения
- 35. Как вы fine-tune embedding модель под свой домен (а не используете готовую)
- 50. Как вы ограничиваете бесконечный цикл агента
- 69. Как вы организуете CICD для RAG-пайплайна
- 74. Как вы мониторите дрейф данных (data drift) для RAG
- 79. Как вы обновляете embedding модель без полной переиндексации
- 86. Как вы решаете проблему “я знаю, что ответ есть в документах, но retrieval не находит”
- 91. Что такое Semantic Caching и как вы его реализуете
- 96. Как вы предотвращаете галлюцинации в production RAG системе
- 117. Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind
- 128. Что такое Model Poisoning в контексте RAG и как защититься
- 133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.
- 177. Как вы измеряете дрейф модели (model drift) для LLM
- 192. Как вы оцениваете качество language representation для задачи
- 198. Какие ограничения у language representation design
- 223. Как работает Product Quantization (PQ) для сжатия векторов
- 225. Как вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные
- 233. Как вы делаете hybrid search (vector + keyword) в production на 10M документов
- 245. Как вы делаете cache invalidation для semantic cache при обновлении знаний
- 257. Как вы дедуплицируете документы перед индексацией в RAG
- 283. Что такое selective attention в контексте long context обработки
- 288. Как вы тестируете видение модели (vision-language) на пропущенные детали
- 361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
- 371. Что такое LambdaMART и как он используется для reranking в RAG
- 372. Как вы строите двухступенчатый ретривал (fast ANN + slow cross-encoder) в RAG
- 373. Что такое learning-to-rank (LTR) и как он применяется к retrieval для LLM
- 375. Как вы калибруете retrieval confidence для threshold-based filtering
- 376. Что такое hybrid search с весами (weighted hybrid) и как оптимизировать веса
- 378. Как работает многогранный (faceted) поиск в RAG с фильтрами
- 412. Как вы делаете cache invalidation для semantic cache при обновлении знаний
- 501. Что такое Path-level evaluation для Agentic RAG и чем оно лучше token-level
- 529. Как вы проектируете feature engineering для контекста RAG (кроме текста)
- 534. Как вы делаете data quality для синтетических датасетов
- 536. Как работает CLIP (Contrastive Language-Image Pre-training) внутренне
- 541. Как вы делаете RAG для изображений (image retrieval without text)
- 546. Как вы индексируете видео-контент в RAG-системе