Поиск
- wikimultimodal embedding
…Как вы делаете RAG для изображений (image retrieval without text)|541. Как вы делаете RAG для изображений (image retrieval without…
- wikiмультимодальный RAG
# мультимодальный RAG ## Определение Архитектура RAG, объединяющая текстовые и визуальные эмбеддинги для поиска и генерации ответов по данным разных типов (текст…
- answerЧем мультимодальный RAG отличается от «OCR + текстовый RAG»? Почему второго недостаточно?
…Мультимодальный RAG (Multimodal RAG) [[Вики/мультимодальный RAG\|Мультимодальный RAG]] — это [[Вики/Expansion\|расширение]] классического [[Вики/гибридный поиск\|RAG]], которое умеет…
- wikiмультимодальные документы
…извлечения и индексации каждого модальности) для эффективного поиска в RAG. ## Где встречается - [[Практика|Практика]] ## Навигация - [[00. Индекс терминов|Индекс терминов…
- wikiVideoCLIP
…динамику и используемая в multimodal retrieval. ## Где встречается - [[546. Как вы индексируете видео-контент в RAG-системе|546. Как вы…
- wikiграф отношений
# граф отношений ## Определение Структура данных с направленными рёбрами между узлами, используемая в multimodal RAG для представления связей между элементами диаграмм…
- wikiмультимодальные возможности
…векторных БД, таких как Weaviate, и расширяющая область применения RAG. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов…
- answerКак вы проектируете multimodal RAG для диаграмм (flowchart, architecture diagram)?
…Как вы проектируете multimodal RAG для диаграмм (flowchart, architecture diagram)? ## Краткий тезис [[Вики/мультимодальный RAG\|Multimodal RAG]] для диаграмм — это…
- answerКакие embedding-модели для мультимодального поиска вы используете? CLIP, BLIP-2, ImageBind?
…unimodal, cross‑modal, multimodal. Сложнее в инференсе. --- ## 7. Как выбрать модель для мультимодального RAG? Критерии выбора: 1. Необходимые модальности: - Только…
- answerКак вы делаете video summarization для RAG (вход — длинное видео, выход — краткое описание)?
…Какие embedding-модели вы использовали и почему\|15]] | Multimodal RAG (изображения, видео) | | [[20. Как вы обеспечиваете, что RAG работает с…
- wikicontrastive loss
…Как вы мониторите дрейф данных (data drift) для RAG|74. Как вы мониторите дрейф данных (data drift) для RAG]] - [[117…
- answerКак работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей?
…Что такое Audio RAG (RAG для аудиофайлов)\|559]] - Следующий: [[561. Как вы проектируете multimodal RAG для диаграмм (flowchart, architecture diagram…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с мультимодальными документами
…Ожидаемый результат [[Вики/Основной артефакт\|Основной артефакт]] GitHub-репозиторий со следующей структурой: ``` multimodal-rag/ ├── data/ # сырые PDF и извлечённые файлы…
- answerКак вы комбинируете текстовый и визуальный поиск (early fusion vs late fusion)?
…Термины и контекст - [[Вики/мультимодальный RAG\|Мультимодальный RAG]] — [[Вики/Expansion\|расширение]] классического [[Вики/гибридный поиск\|RAG]], где в качестве источников…
- answerКак работает whisper.cpp для локального ASR с low latency?
…Как вы проектируете multimodal RAG для диаграмм (flowchart, architecture diagram)\|561]] | Какие компоненты входят в архитектуру Agentic RAG? | | [[563. Как…
- answerКак вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)?
…Как вы оцениваете качество retrieval'а в RAG-системе\|5]] | Как оценивать качество retrieval в RAG (метрики faithfulness) | | [[7. Как…
- answerКак вы делаете retrieval для изображений с защитой авторских прав (watermarking)?
…Интеграция в Agentic RAG В архитектуре [[Вики/Agentic RAG\|Agentic RAG]] агент управляет пайплайном: получает запрос, выбирает инструменты (поиск изображений…
- answerКак работает Zero-shot classification для изображений (CLIP vs другие методы)?
…Навигация (Obsidian) - Предыдущий: [[556_Agentic_RAG_архитектура\|556]] - Следующий: [[558_Multimodal_RAG_агенты\|558]] - Индекс: [[00. Индекс разборов]] --- ## Навигация (Obsidian…
- answerКак работает модели типа Kosmos-2 (grounding объектов на изображении)?
…Как вы проектируете multimodal RAG для диаграмм (flowchart, architecture diagram)\|561]] | Что такое Agentic RAG и как он отличается от…
- answerКак комбинировать LLM с симуляторами физики (digital twins)?
…Что такое LLM для symbolic regression (AI Feynman) и как это работает\|730]] | Архитектура Agentic RAG: планирование и выполнение действий…
- answerВ чем проблема «natural language bottleneck» для LLM?
…Связь с RAG и Agentic RAG [[Вики/гибридный поиск\|RAG]] ([[Вики/гибридный поиск\|Retrieval-Augmented Generation]]) частично смягчает [[Вики/natural…
- answerКак работает CLIP (Contrastive Language-Image Pre-training) внутренне?
…Связь с Agentic RAG и мультимодальным RAG [[Вики/CLIP\|CLIP]] часто используется в мультимодальном [[Вики/RAG\|RAG]] как [[Вики/embedding…
- answerКак вы делаете RAG для изображений (image retrieval without text)?
…Как вы делаете RAG для изображений (image retrieval without text)? ## Краткий тезис RAG для изображений без текста строится на мультимодальных…
- answerЧто такое LayoutLMv3 и зачем он для document understanding?
…Применение LayoutLMv3 в RAG В [[Вики/Agentic RAG\|Agentic RAG]] [[Вики/agent\|агент]] часто работает с документами разного формата. [[Вики…
- answerКак вы делаете image captioning для RAG (извлечение описания изображения)?
…изображение → VL-LLM → текст описания Типовой [[Вики/пайплайн\|пайплайн]] [[Вики/image captioning\|captioning]] для [[Вики/RAG\|RAG]]: 1. [[Вики/indexing…
- answerКак вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал?
…SRR обязателен, иначе [[Вики/GPT-4o\|LLM]] может «угадать» по части. - [[Вики/мультимодальный RAG\|Мультимодальный RAG]] с изображениями: SRR помогает…
- answerЧто такое diffusion backends для генерации изображений (Stable Diffusion, Flux) и как их вызывать из агента?
…В контексте [[Вики/Agentic RAG\|Agentic RAG]] [[Вики/AI agents\|агент]] может вызывать такие backends как внешний инструмент, передавая [[Вики…
- answerКак выполнять requirement on transparency (статья 13 EU AI Act) для LLM?
…в RAG retrieved chunks могут меняться от запроса к запросу — нужно логировать и показывать именно те, что использовались. - [[Вики/multimodality…
- answerКак вы делаете image retrieval с фильтрацией по метаданным (дата, местоположение, камера)?
…Как вы проектируете multimodal RAG для диаграмм (flowchart, architecture diagram)\|561]] | Гибридный поиск (векторный + keyword) | | [[562. Как работает whisper.cpp…
- answerПочему агенты деградируют на длинных horizon (более 10 шагов)?
…Как вы проектируете multimodal RAG для диаграмм (flowchart, architecture diagram)\|561]] | Что такое Agentic RAG и чем отличается от обычного…
- indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING
…RAG | 234 (multimodal RAG) | | 121-130 | Безопасность | 102 (NeMo Guardrails), 107 (AdmissionController) | | 131-140 | LLM-as-Judge | 236 (RAGAS), 252…
- answerКак работает vision encoder в GPT-4V / LLaVA?
…Роль vision encoder в Agentic RAG (мультимодальный retrieval) В [[Вики/Agentic RAG\|Agentic RAG]] агент может получать изображения от пользователя…
- answerКак работает CLIP и как training contrastive loss выравнивает текст и изображения?
…Выбираем класс с максимальным косинусным сходством. [[Вики/multimodal retrieval\|Мультимодальный поиск]] (например, в RAG-системе): - Пользовательский запрос (текст) кодируется Text…
- answerКак вы защищаете LLM от prompt injection через изображения (VL-модели)?
…Почему VL-модели особенно уязвимы | Фактор | Описание | |--------|----------| | [[Вики/multimodality\|Мультимодальность]] | Модель доверяет визуальному входу так же, как текстовому. | | Отсутствие явной…
- answerЧто такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
…Мультимодальные LLM [[Вики/multimodal LLM\|Мультимодальная LLM]] — это [[Вики/LLM\|большая языковая модель]], способная обрабатывать и понимать данные разных типов…
- indexИндекс разборов
…Как вы проектируете multimodal RAG для диаграмм (flowchart, architecture diagram)\|561. Как вы проектируете multimodal RAG для диаграмм (flowchart, architecture…
- indexОглавление
…Как вы проектируете multimodal RAG для диаграмм (flowchart, architecture diagram)\|561. Как вы проектируете multimodal RAG для диаграмм (flowchart,]] - [[Вопросы…
- wikiИндекс терминов
…RAG poisoning|RAG poisoning]] - [[Вики/RAG-bot|RAG-bot]] - [[Вики/RAG-префикс|RAG-префикс]] - [[Вики/RAGAS|RAGAS]] - [[Вики/RAGEngine|RAGEngine…
- question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Как вы проектируете multimodal RAG для диаграмм (flowchart, architecture diagram)?** > _Ответ:_ > > - **Detect nodes (YOLO):** прямоугольники, ромбы, стрелки. > > - **OCR текста** внутри…