Поиск

wikiVision-Language Models
# Vision-Language Models ## Определение Мультимодальные модели, способные обрабатывать и связывать визуальную (изображения, видео) и текстовую информацию. Оцениваются с помощью бенчмарков…
wikiOpenCLIP
# OpenCLIP ## Определение Открытая реализация модели CLIP, позволяющая тренировать и использовать мультимодальные эмбеддинги для поиска изображений по тексту. ## Где встречается - [[537…
answerЧем мультимодальный RAG отличается от «OCR + текстовый RAG»? Почему второго недостаточно?
…мультимодальные модели (GPT-4V, Gemini, Claude 3) дороже в инференсе. --- ## 6. Архитектура мультимодального RAG ### 6.1 Этап индексации 1. Извлечение…
answerЧто такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
…Как вы проектируете систему для real-time video understanding (поток с камер)\|370]] | Как fine-tune'ить мультимодальные модели? | | [[380…
answerКак вы делаете RAG для изображений (image retrieval without text)?
…Решение — использовать [[Вики/multimodal embedding\|мультимодальные эмбеддинги]], которые кодируют и изображения, и текст в общее пространство, позволяя сравнивать их напрямую…
answerЧто такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
…Как вы парсите сложные PDF с таблицами и графиками (не просто текст)\|542]] | Как обучать мультимодальные модели end-to-end…
answerКак быть, если одно и то же изображение встречается в документах с разными подписями?
…эмбеддинги]] подписей (текстовые) — отдельно или в одном пространстве (через мультимодальные модели вроде [[Вики/CLIP\|CLIP]]). 2. [[Вики/retrieval\|Retrieval]]: - По…
answerВ чем проблема «natural language bottleneck» для LLM?
…Возможные решения | Решение | Описание | Пример | |---------|----------|--------| | [[Вики/multimodal LLM\|Мультимодальные LLM]] | Модели, которые принимают на вход изображения, аудио, числовые ряды (например…
answerКак вы защищаете LLM от prompt injection через изображения (VL-модели)?
…перед вызовом модели извлечь текст, если malicious — вернуть заглушку «Изображение содержит потенциально опасные инструкции». 6. Сравнить ответы модели с защитой…
answerКак вы делаете image captioning для RAG (извлечение описания изображения)?
…Основные модели: BLIP-2 и LLaVA Для [[Вики/image captioning\|captioning]] в [[Вики/гибридный поиск\|RAG]] используются **Vision-Language модели…
answerКак работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?
…мультимодальное выравнивание (alignment) [[Вики/safety alignment\|Мультимодальное выравнивание]] — это [[Вики/способность модели\|способность модели]] устанавливать семантические связи между разными типами…
answerЧто такое red teaming certification (стандарты 2026 для оценки robustness)?
…AI) - Разработан Microsoft. - Позволяет создавать кастомные сценарии атак. - Поддерживает мультимодальные модели. ### 6.3 Promptfoo - Инструмент для тестирования промптов. - Можно автоматизировать…
answerКак вы проверяете, что RLHF не сломал базовые способности модели?
…Оценивайте [[Вики/trade-off\|trade-off]]. - Мультимодальные модели для них добавляют [[Вики/Benchmarks\|бенчмарки]] вроде VQAv2, [[Вики/COCO Captions\|COCO…
answerКак вы представляете граф знаний из изображения для LLM?
…Современные мультимодальные модели ([[Вики/OpenAI API\|GPT]]‑4V, [[Вики/Gemini\|Gemini]]) могут это делать, но часто ошибаются в логике перехода…
answerКак работает CLIP (Contrastive Language-Image Pre-training) внутренне?
…В [[Вики/CLIP\|CLIP]] τ обучается вместе с остальными весами, что позволяет модели автоматически подобрать оптимальный [[Вики/Scale\|масштаб]]. --- ## 6…
answerКак работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?
…Как работает Whisper архитектурно для ASR (Automatic Speech Recognition)\|543]] | Как обучать мультимодальные модели с коннекторами? | | [[544. Как вы строите…
answerКак вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)?
…Связь с Agentic RAG В [[Вики/Agentic RAG\|Agentic RAG]] мультимодальные модели могут использоваться для: - Извлечения информации из изображений (документы…
answerКак работает diffusion backends для генерации изображений в AI-агентах?
…Мультимодальные AI-агенты (текст + изображения + аудио) | | [[200. Что вы видите следующим горизонтом после language representation\|200]] | Как работают диффузионные модели…
answerКак работает OCR для RAG? Недостатки и когда его недостаточно?
…LLM\|Vision-Language LLM]] ([[Вики/VL-LLM\|VL-LLM]])** — мультимодальные модели, которые «видят» документ целиком: - [[Вики/GPT-4V\|GPT-4V…
answerКак работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения?
…плохая [[Вики/tokenizer\|токенизация]] (например, [[Вики/chunking\|разбиение]] чисел) ухудшает [[Вики/способность модели\|способность модели]] к рассуждению. - **[[Вики/Perplexity\|Perplexity…
answerКак работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)?
…Инструменты и модели - [[Вики/CLIP\|CLIP]] ([[Вики/GPT-4o\|OpenAI]]) — де-факто стандарт для [[Вики/Unified embedding\|unified embedding]]. Доступен…
answerКак вы комбинируете текстовый и визуальный поиск (early fusion vs late fusion)?
…Для этого применяются модели, обученные на парах текст-изображение, например [[Вики/CLIP\|CLIP]], [[Вики/ImageBind\|ImageBind]], [[Вики/BLIP-2\|BLIP…
answerКак работает packing для variable-length sequences в FSDP?
…Каждый [[Вики/GPU\|GPU]] хранит только часть полной модели, но обрабатывает полный [[Вики/batch size\|батч]] данных ([[Вики/Data parallelism…
answerКак вы проектируете feature engineering для контекста RAG (кроме текста)?
…При 10 документах это 200–500 токенов, что может превысить лимит модели. - [[Вики/Noise\|Шум]]: если фичи нерелевантны запросу, они…
answerКак спроектировать систему, где LLM должна работать с конфиденциальными данными (медицина, финансы)?
…Как вы обрабатываете смену форматов документов (legacy + новые форматы)\|85]] | Мультимодальные RAG-системы | --- ## Навигация (Obsidian) - Предыдущий: [[82. Как бы вы…
answerКак вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал?
…Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind\|117]] | Мультимодальные эмбеддинги для поиска изображений | | [[119. Как…
answerКак вы индексируете видео-контент в RAG-системе?
…Текстовые эмбеддинги Транскрибированный текст каждого шота превращается в [[Вики/embedding\|текстовый эмбеддинг]] с помощью той же модели, что используется для…
answerЧто такое SigLIP и чем отличается от CLIP?
…Как работает vision encoder в GPT-4V LLaVA\|538]] | Как использовать мультимодальные эмбеддинги в RAG? | | [[520. Как вы проектируете data…
answerЧто такое diffusion backends для генерации изображений (Stable Diffusion, Flux) и как их вызывать из агента?
…асинхронный вызов, webhook, pooling Генерация изображения занимает 2–10 секунд (зависит от модели, шагов, GPU). В агенте это блокирующая операция…
answerКак тестировать промпты (prompt regression testing)?
…0.85–0.95 (зависит от модели). Просто, быстро, но не улавливает фактологические [[Вики/ошибки\|ошибки]] — может дать высокий [[Вики…
answerЧто такое Layout-Aware Chunking и как он связан с мультимодальностью?
…сравнение координат, [[Вики/retrieval\|поиск]] пустых областей, [[Вики/Clustering\|кластеризация]] по y-координатам. - ML-модели: [[Вики/LayoutLMv3\|LayoutLM]], [[Вики/Detectron2…
answerКак вы извлекаете *логические отношения* из диаграммы, а не просто текст?
…Что такое Layout-Aware Chunking и как он связан с мультимодальностью\|114]] | Мультимодальные эмбеддинги для картинок и текста | | [[115. Как…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…θ (способность модели) + β (сложность вопроса). Преимущества: > > - Оценивает способность модели как непрерывную переменную > > - Оценивает сложность вопроса независимо > > - Позволяет сравнивать модели…
wikiИндекс терминов
…Вики/мультимодальная изоляция|мультимодальная изоляция]] - [[Вики/мультимодальные возможности|мультимодальные возможности]] - [[Вики/мультимодальные документы|мультимодальные документы]] - [[Вики/мультимодальный RAG|мультимодальный RAG…