English translation is not available yet. Showing Russian content.
мультимодальный RAG
мультимодальный RAG
Определение
Архитектура RAG, объединяющая текстовые и визуальные эмбеддинги для поиска и генерации ответов по данным разных типов (текст, изображения, диаграммы), превосходящая подход «OCR + текстовый RAG» за счёт сохранения логических связей.
Где встречается
- 112. Как вы извлекаете логические отношения из диаграммы, а не просто текст
- 113. Как вы представляете граф знаний из изображения для LLM
- 114. Что такое Layout-Aware Chunking и как он связан с мультимодальностью
- 117. Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind
- 118. Как вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал
- 119. Как вы комбинируете текстовый и визуальный поиск (early fusion vs late fusion)
- 367. Что такое Q-Former в BLIP-2 и зачем он нужен
- 536. Как работает CLIP (Contrastive Language-Image Pre-training) внутренне
- 552. Как вы делаете image captioning для RAG (извлечение описания изображения)
- 555. Как работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)
- 800+ вопросов