Поиск

wikiimage captioning
# image captioning ## Определение Задача автоматического создания текстового описания изображения. В RAG применяется для извлечения текстового представления изображения с целью последующей…
wikiSPICE
# SPICE ## Определение Метрика оценки качества описаний изображений (image captioning), основанная на сравнении семантических графов (scene graph) для измерения семантического соответствия…
wikiCIDEr
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
answerКак вы делаете image captioning для RAG (извлечение описания изображения)?
…Как вы делаете image captioning для RAG (извлечение описания изображения)? ## Краткий тезис **[[Вики/Image\|Image]] [[Вики/image captioning\|captioning]]** для…
wikiBLIP-2
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
answerКакие embedding-модели для мультимодального поиска вы используете? CLIP, BLIP-2, ImageBind?
…можно использовать как [[Вики/embedding-модель\|энкодер]] для [[Вики/retrieval\|retrieval]], так и для генерации ([[Вики/image captioning\|captioning]], [[Вики…
wikiMETEOR
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
wikiQ-Former
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
wikiVL-LLM
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
wikiGemini
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
wikiImage-grounded Text Generation
# Image-grounded Text Generation ## Определение Задача генерации текста на основе изображения, например автоматическое описание (captioning). Является одной из обучающих задач…
wikiмультимодальный RAG
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
wikiVision encoder
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
wikiBi-encoder
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
wikiLLaVA
# LLaVA ## Определение Мультимодальная модель для обработки изображений и текста, используемая в image captioning и ответах по диаграммам. ## Где встречается - [[362…
wikiGit
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
wikiGPT-4V
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
wikiFlickr8k
# Flickr8k ## Определение Датасет из 8000 изображений с пятью подписями каждое, популярен для задачи автоматического описания изображений (image captioning). ## Где встречается…
wikiFlickr30k
# Flickr30k ## Определение Датасет, содержащий изображения с текстовыми подписями, используется для обучения и тестирования задач image captioning и retrieval, в том…
wikiCLIP
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
answerКак работает Q-Former в BLIP-2 и зачем он нужен?
…Image-grounded Text Generation\|Image-grounded Text Generation]])** — [[Вики/generation\|генерация]] текста на основе изображения (например, [[Вики/image captioning\|captioning…
answerКак вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)?
…CHAIR (Caption Hallucination Assessment) [[Вики/CHAIR\|CHAIR]] — метрика для задачи [[Вики/image captioning\|image captioning]] (описание изображения). Оценивает, сколько объектов…
wikiключевой поиск
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
answerКак работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей?
…Они решают задачи: [[Вики/VQA\|VQA]] ([[Вики/VQA\|Visual Question Answering]]), [[Вики/image captioning\|captioning]] ([[Вики/generation\|генерация]] подписи к…
wikiгибридный поиск
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
answerЧто такое LayoutLMv3 и зачем он для document understanding?
…Как вы делаете image captioning для RAG (извлечение описания изображения)\|552]] | LayoutLMv2: роль визуального энкодера | | [[554. Как вы делаем image…
answerКак работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)?
…qdrant-client]]`, `Pillow`, `[[Вики/transformers\|transformers]]` (для [[Вики/image captioning\|captioning]], опционально). **Шаги**: 1. Собрать [[Вики/dataset\|датасет]]: 50-100…
wikiвекторный поиск
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
answerКак вы делаете RAG для видео (индексация subshots, аудио, ключевые кадры)?
…image_features = model.encode_image(image) image_features /= image_features.norm(dim=-1, keepdim=True) ``` [[Вики/embedding\|Эмбеддинг]] ключевого кадра…
answerКак работает модели типа Kosmos-2 (grounding объектов на изображении)?
…языковое моделирование\|языковое моделирование]] с визуальным контекстом ([[Вики/image captioning\|image captioning]], [[Вики/VQA\|VQA]]). - Цель научить [[Вики/GPT-4o…
wikiRecall
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с мультимодальными документами
…Научиться интегрировать CLIP (Contrastive Language-Image Pre-training) для эмбеддингов изображений, извлекать таблицы из PDF и объединять гетерогенные данные в…
answerЧто такое diffusion backends для генерации изображений (Stable Diffusion, Flux) и как их вызывать из агента?
…Как вы делаете image captioning для RAG (извлечение описания изображения)\|552]] | Обработка ошибок и retry в агентах | | [[555. Как работает…
wikiBLEU
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
answerЧто такое adversarial patch для vision-language моделей (физическая атака)?
…VQA\|visual question answering]] ([[Вики/VQA\|VQA]])**, [[Вики/image captioning\|image captioning]], [[Вики/Faithfulness\|grounding]]. --- ## 4. Отличие от цифровых adversarial…
wikihallucination
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
answerКак вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)?
…оценивает [[Вики/галлюцинации\|галлюцинации]] в описаниях изображений ([[Вики/image captioning\|image captioning]]). Считает долю объектов, упомянутых в описании, но отсутствующих…
wikihuman-in-the-loop
…Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…
answerЧто такое Q-Former в BLIP-2 и зачем он нужен?
…упрощённую версию Q-Former для генерации подписей к изображениям (image captioning) с замороженным GPT-2. Инструменты PyTorch, Hugging Face Transformers…
answerКак вы индексируете видео-контент в RAG-системе?
…image embeddings from keyframes) → merge & rerank → LLM takes top fragments (text + maybe image) ``` Для улучшения можно добавить [[Вики/image captioning…
answerКак работает AudioLM и MusicGen для генерации аудио?
…Как вы делаете image captioning для RAG (извлечение описания изображения)\|552]] | Что такое нейросетевые аудиокодеки (SoundStream, EnCodec)? | | [[553. Что такое…
answerЧто такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
…Специальные токены-разделители (`<[[Вики/Image\|image]]>`, `image>`) обозначают [[Вики/boundaries\|границы]]. 4. Подача в [[Вики/GPT-4o\|LLM]]. Стандартный [[Вики…
answerКак быть, если одно и то же изображение встречается в документах с разными подписями?
…например, в PDF без alt-текста), можно: - Использовать модель image captioning (BLIP, GIT) для генерации подписи «на лету». - Хранить сгенерированную…
answerКак работает vision encoder в GPT-4V / LLaVA?
…Поэтому vision encoder — критический компонент для задач VQA (Visual Question Answering), image captioning, мультимодального RAG. --- ## 2. Архитектура Vision Transformer (ViT…
answerКак вы делаете video summarization для RAG (вход — длинное видео, выход — краткое описание)?
…inputs = processor(images=frame, return_tensors="pt") out = model.generate(**inputs, max_new_tokens=50) return processor.decode(out[0…
wikiИндекс терминов
…Image|Image]] - [[Вики/image captioning|image captioning]] - [[Вики/Image patches as tokens|Image patches as tokens]] - [[Вики/image retrieval|image…
indexИндекс разборов
…Как вы делаете image captioning для RAG (извлечение описания изображения)\|552. Как вы делаете image captioning для RAG (извлечение описания…
indexОглавление
…Как вы делаете image captioning для RAG (извлечение описания изображения)\|552. Как вы делаете image captioning для RAG (извлечение описания…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Как вы делаете image captioning для RAG (извлечение описания изображения)?** > _Ответ:_ > > - **BLIP-2** или **LLaVA** — best-in-class для captioning…