目录
问题
实践
百科
社区资料
测试
搜索

✈Telegram @ai_varo

…

目录/百科/CLIP

中文翻译暂不可用，显示俄语原文。

CLIP

CLIP

Определение

Модель контрастивного обучения от OpenAI, выравнивающая текстовые и визуальные эмбеддинги в едином пространстве; используется для мультимодального поиска и RAG.

Где встречается

6. Что такое гибридный поиск и когда он нужен
113. Как вы представляете граф знаний из изображения для LLM
114. Что такое Layout-Aware Chunking и как он связан с мультимодальностью
116. Как вы индексируете видео-контент в RAG-системе
117. Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind
118. Как вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал
119. Как вы комбинируете текстовый и визуальный поиск (early fusion vs late fusion)
361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
365. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
370. Как вы проектируете систему для real-time video understanding (поток с камер)
536. Как работает CLIP (Contrastive Language-Image Pre-training) внутренне
537. Что такое SigLIP и чем отличается от CLIP
541. Как вы делаете RAG для изображений (image retrieval without text)
546. Как вы индексируете видео-контент в RAG-системе
552. Как вы делаете image captioning для RAG (извлечение описания изображения)
554. Как вы делаем image retrieval по тексту с высокой точностью
555. Как работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)
558. Как вы делаете video summarization для RAG (вход — длинное видео, выход — краткое описание)
563. Как вы делаете image retrieval с фильтрацией по метаданным (дата, местоположение, камера)
564. Как работает модели типа Kosmos-2 (grounding объектов на изображении)
Практика
800+ вопросов

Навигация

Индекс терминов
Индекс разборов
Оглавление