中文翻译暂不可用,显示俄语原文。
CLIP
CLIP
Определение
Модель контрастивного обучения от OpenAI, выравнивающая текстовые и визуальные эмбеддинги в едином пространстве; используется для мультимодального поиска и RAG.
Где встречается
- 6. Что такое гибридный поиск и когда он нужен
- 113. Как вы представляете граф знаний из изображения для LLM
- 114. Что такое Layout-Aware Chunking и как он связан с мультимодальностью
- 116. Как вы индексируете видео-контент в RAG-системе
- 117. Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind
- 118. Как вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал
- 119. Как вы комбинируете текстовый и визуальный поиск (early fusion vs late fusion)
- 361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
- 362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 365. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
- 370. Как вы проектируете систему для real-time video understanding (поток с камер)
- 536. Как работает CLIP (Contrastive Language-Image Pre-training) внутренне
- 537. Что такое SigLIP и чем отличается от CLIP
- 541. Как вы делаете RAG для изображений (image retrieval without text)
- 546. Как вы индексируете видео-контент в RAG-системе
- 552. Как вы делаете image captioning для RAG (извлечение описания изображения)
- 554. Как вы делаем image retrieval по тексту с высокой точностью
- 555. Как работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)
- 558. Как вы делаете video summarization для RAG (вход — длинное видео, выход — краткое описание)
- 563. Как вы делаете image retrieval с фильтрацией по метаданным (дата, местоположение, камера)
- 564. Как работает модели типа Kosmos-2 (grounding объектов на изображении)
- Практика
- 800+ вопросов