Поиск
- wikiimage captioning
# image captioning ## Определение Задача автоматического создания текстового описания изображения. В RAG применяется для извлечения текстового представления изображения с целью последующей…
- wikiSPICE
# SPICE ## Определение Метрика оценки качества описаний изображений (image captioning), основанная на сравнении семантических графов (scene graph) для измерения семантического соответствия…
- wikiCIDEr
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
- answerКак вы делаете image captioning для RAG (извлечение описания изображения)?
…Как вы делаете image captioning для RAG (извлечение описания изображения)? ## Краткий тезис **[[Вики/Image\|Image]] [[Вики/image captioning\|captioning]]** для…
- wikiBLIP-2
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
- answerКакие embedding-модели для мультимодального поиска вы используете? CLIP, BLIP-2, ImageBind?
…можно использовать как [[Вики/embedding-модель\|энкодер]] для [[Вики/retrieval\|retrieval]], так и для генерации ([[Вики/image captioning\|captioning]], [[Вики…
- wikiMETEOR
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
- wikiQ-Former
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
- wikiVL-LLM
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
- wikiGemini
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
- wikiImage-grounded Text Generation
# Image-grounded Text Generation ## Определение Задача генерации текста на основе изображения, например автоматическое описание (captioning). Является одной из обучающих задач…
- wikiмультимодальный RAG
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
- wikiVision encoder
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
- wikiBi-encoder
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
- wikiLLaVA
# LLaVA ## Определение Мультимодальная модель для обработки изображений и текста, используемая в image captioning и ответах по диаграммам. ## Где встречается - [[362…
- wikiGit
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
- wikiGPT-4V
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
- wikiFlickr8k
# Flickr8k ## Определение Датасет из 8000 изображений с пятью подписями каждое, популярен для задачи автоматического описания изображений (image captioning). ## Где встречается…
- wikiFlickr30k
# Flickr30k ## Определение Датасет, содержащий изображения с текстовыми подписями, используется для обучения и тестирования задач image captioning и retrieval, в том…
- wikiCLIP
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
- answerКак работает Q-Former в BLIP-2 и зачем он нужен?
…Image-grounded Text Generation\|Image-grounded Text Generation]])** — [[Вики/generation\|генерация]] текста на основе изображения (например, [[Вики/image captioning\|captioning…
- answerКак вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)?
…CHAIR (Caption Hallucination Assessment) [[Вики/CHAIR\|CHAIR]] — метрика для задачи [[Вики/image captioning\|image captioning]] (описание изображения). Оценивает, сколько объектов…
- wikiключевой поиск
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
- answerКак работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей?
…Они решают задачи: [[Вики/VQA\|VQA]] ([[Вики/VQA\|Visual Question Answering]]), [[Вики/image captioning\|captioning]] ([[Вики/generation\|генерация]] подписи к…
- wikiгибридный поиск
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
- answerЧто такое LayoutLMv3 и зачем он для document understanding?
…Как вы делаете image captioning для RAG (извлечение описания изображения)\|552]] | LayoutLMv2: роль визуального энкодера | | [[554. Как вы делаем image…
- answerКак работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)?
…qdrant-client]]`, `Pillow`, `[[Вики/transformers\|transformers]]` (для [[Вики/image captioning\|captioning]], опционально). **Шаги**: 1. Собрать [[Вики/dataset\|датасет]]: 50-100…
- wikiвекторный поиск
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
- answerКак вы делаете RAG для видео (индексация subshots, аудио, ключевые кадры)?
…image_features = model.encode_image(image) image_features /= image_features.norm(dim=-1, keepdim=True) ``` [[Вики/embedding\|Эмбеддинг]] ключевого кадра…
- answerКак работает модели типа Kosmos-2 (grounding объектов на изображении)?
…языковое моделирование\|языковое моделирование]] с визуальным контекстом ([[Вики/image captioning\|image captioning]], [[Вики/VQA\|VQA]]). - Цель научить [[Вики/GPT-4o…
- wikiRecall
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с мультимодальными документами
…Научиться интегрировать CLIP (Contrastive Language-Image Pre-training) для эмбеддингов изображений, извлекать таблицы из PDF и объединять гетерогенные данные в…
- answerЧто такое diffusion backends для генерации изображений (Stable Diffusion, Flux) и как их вызывать из агента?
…Как вы делаете image captioning для RAG (извлечение описания изображения)\|552]] | Обработка ошибок и retry в агентах | | [[555. Как работает…
- wikiBLEU
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
- answerЧто такое adversarial patch для vision-language моделей (физическая атака)?
…VQA\|visual question answering]] ([[Вики/VQA\|VQA]])**, [[Вики/image captioning\|image captioning]], [[Вики/Faithfulness\|grounding]]. --- ## 4. Отличие от цифровых adversarial…
- wikihallucination
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
- answerКак вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)?
…оценивает [[Вики/галлюцинации\|галлюцинации]] в описаниях изображений ([[Вики/image captioning\|image captioning]]). Считает долю объектов, упомянутых в описании, но отсутствующих…
- wikihuman-in-the-loop
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
- answerЧто такое Q-Former в BLIP-2 и зачем он нужен?
…упрощённую версию Q-Former для генерации подписей к изображениям (image captioning) с замороженным GPT-2. Инструменты PyTorch, Hugging Face Transformers…
- answerКак вы индексируете видео-контент в RAG-системе?
…image embeddings from keyframes) → merge & rerank → LLM takes top fragments (text + maybe image) ``` Для улучшения можно добавить [[Вики/image captioning…
- answerКак работает AudioLM и MusicGen для генерации аудио?
…Как вы делаете image captioning для RAG (извлечение описания изображения)\|552]] | Что такое нейросетевые аудиокодеки (SoundStream, EnCodec)? | | [[553. Что такое…
- answerЧто такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
…Специальные токены-разделители (`<[[Вики/Image\|image]]>`, `image>`) обозначают [[Вики/boundaries\|границы]]. 4. Подача в [[Вики/GPT-4o\|LLM]]. Стандартный [[Вики…
- answerКак быть, если одно и то же изображение встречается в документах с разными подписями?
…например, в PDF без alt-текста), можно: - Использовать модель image captioning (BLIP, GIT) для генерации подписи «на лету». - Хранить сгенерированную…
- answerКак работает vision encoder в GPT-4V / LLaVA?
…Поэтому vision encoder — критический компонент для задач VQA (Visual Question Answering), image captioning, мультимодального RAG. --- ## 2. Архитектура Vision Transformer (ViT…
- answerКак вы делаете video summarization для RAG (вход — длинное видео, выход — краткое описание)?
…inputs = processor(images=frame, return_tensors="pt") out = model.generate(**inputs, max_new_tokens=50) return processor.decode(out[0…
- wikiИндекс терминов
…Image|Image]] - [[Вики/image captioning|image captioning]] - [[Вики/Image patches as tokens|Image patches as tokens]] - [[Вики/image retrieval|image…
- indexИндекс разборов
…Как вы делаете image captioning для RAG (извлечение описания изображения)\|552. Как вы делаете image captioning для RAG (извлечение описания…
- indexОглавление
…Как вы делаете image captioning для RAG (извлечение описания изображения)\|552. Как вы делаете image captioning для RAG (извлечение описания…
- question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Как вы делаете image captioning для RAG (извлечение описания изображения)?** > _Ответ:_ > > - **BLIP-2** или **LLaVA** — best-in-class для captioning…