мультимодальный RAG

Определение

Архитектура RAG, объединяющая текстовые и визуальные эмбеддинги для поиска и генерации ответов по данным разных типов (текст, изображения, диаграммы), превосходящая подход «OCR + текстовый RAG» за счёт сохранения логических связей.

Где встречается

112. Как вы извлекаете логические отношения из диаграммы, а не просто текст
113. Как вы представляете граф знаний из изображения для LLM
114. Что такое Layout-Aware Chunking и как он связан с мультимодальностью
117. Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind
118. Как вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал
119. Как вы комбинируете текстовый и визуальный поиск (early fusion vs late fusion)
367. Что такое Q-Former в BLIP-2 и зачем он нужен
536. Как работает CLIP (Contrastive Language-Image Pre-training) внутренне
552. Как вы делаете image captioning для RAG (извлечение описания изображения)
555. Как работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)
800+ вопросов

мультимодальный RAG

мультимодальный RAG

Определение

Где встречается

Навигация