Поиск

  • wikiimage captioning

    # image captioning ## Определение Задача автоматического создания текстового описания изображения. В RAG применяется для извлечения текстового представления изображения с целью последующей…

  • wikiSPICE

    # SPICE ## Определение Метрика оценки качества описаний изображений (image captioning), основанная на сравнении семантических графов (scene graph) для измерения семантического соответствия…

  • wikiCIDEr

    …Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…

  • answerКак вы делаете image captioning для RAG (извлечение описания изображения)?

    …Как вы делаете image captioning для RAG (извлечение описания изображения)? ## Краткий тезис **[[Вики/Image\|Image]] [[Вики/image captioning\|captioning]]** для…

  • wikiBLIP-2

    …Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…

  • answerКакие embedding-модели для мультимодального поиска вы используете? CLIP, BLIP-2, ImageBind?

    …можно использовать как [[Вики/embedding-модель\|энкодер]] для [[Вики/retrieval\|retrieval]], так и для генерации ([[Вики/image captioning\|captioning]], [[Вики…

  • wikiMETEOR

    …Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…

  • wikiQ-Former

    …Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…

  • wikiVL-LLM

    …Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…

  • wikiGemini

    …Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…

  • wikiImage-grounded Text Generation

    # Image-grounded Text Generation ## Определение Задача генерации текста на основе изображения, например автоматическое описание (captioning). Является одной из обучающих задач…

  • wikiмультимодальный RAG

    …Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…

  • wikiVision encoder

    …Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…

  • wikiBi-encoder

    …Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…

  • wikiLLaVA

    # LLaVA ## Определение Мультимодальная модель для обработки изображений и текста, используемая в image captioning и ответах по диаграммам. ## Где встречается - [[362…

  • wikiGit

    …Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…

  • wikiGPT-4V

    …Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…

  • wikiFlickr8k

    # Flickr8k ## Определение Датасет из 8000 изображений с пятью подписями каждое, популярен для задачи автоматического описания изображений (image captioning). ## Где встречается…

  • wikiFlickr30k

    # Flickr30k ## Определение Датасет, содержащий изображения с текстовыми подписями, используется для обучения и тестирования задач image captioning и retrieval, в том…

  • wikiCLIP

    …Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…

  • answerКак работает Q-Former в BLIP-2 и зачем он нужен?

    Image-grounded Text Generation\|Image-grounded Text Generation]])** — [[Вики/generation\|генерация]] текста на основе изображения (например, [[Вики/image captioning\|captioning

  • answerКак вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)?

    …CHAIR (Caption Hallucination Assessment) [[Вики/CHAIR\|CHAIR]] — метрика для задачи [[Вики/image captioning\|image captioning]] (описание изображения). Оценивает, сколько объектов…

  • wikiключевой поиск

    …Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…

  • answerКак работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей?

    …Они решают задачи: [[Вики/VQA\|VQA]] ([[Вики/VQA\|Visual Question Answering]]), [[Вики/image captioning\|captioning]] ([[Вики/generation\|генерация]] подписи к…

  • wikiгибридный поиск

    …Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…

  • answerЧто такое LayoutLMv3 и зачем он для document understanding?

    …Как вы делаете image captioning для RAG (извлечение описания изображения)\|552]] | LayoutLMv2: роль визуального энкодера | | [[554. Как вы делаем image

  • answerКак работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)?

    …qdrant-client]]`, `Pillow`, `[[Вики/transformers\|transformers]]` (для [[Вики/image captioning\|captioning]], опционально). **Шаги**: 1. Собрать [[Вики/dataset\|датасет]]: 50-100…

  • wikiвекторный поиск

    …Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…

  • answerКак вы делаете RAG для видео (индексация subshots, аудио, ключевые кадры)?

    image_features = model.encode_image(image) image_features /= image_features.norm(dim=-1, keepdim=True) ``` [[Вики/embedding\|Эмбеддинг]] ключевого кадра…

  • answerКак работает модели типа Kosmos-2 (grounding объектов на изображении)?

    …языковое моделирование\|языковое моделирование]] с визуальным контекстом ([[Вики/image captioning\|image captioning]], [[Вики/VQA\|VQA]]). - Цель научить [[Вики/GPT-4o…

  • wikiRecall

    …Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с мультимодальными документами

    …Научиться интегрировать CLIP (Contrastive Language-Image Pre-training) для эмбеддингов изображений, извлекать таблицы из PDF и объединять гетерогенные данные в…

  • answerЧто такое diffusion backends для генерации изображений (Stable Diffusion, Flux) и как их вызывать из агента?

    …Как вы делаете image captioning для RAG (извлечение описания изображения)\|552]] | Обработка ошибок и retry в агентах | | [[555. Как работает…

  • wikiBLEU

    …Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…

  • answerЧто такое adversarial patch для vision-language моделей (физическая атака)?

    …VQA\|visual question answering]] ([[Вики/VQA\|VQA]])**, [[Вики/image captioning\|image captioning]], [[Вики/Faithfulness\|grounding]]. --- ## 4. Отличие от цифровых adversarial…

  • wikihallucination

    …Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…

  • answerКак вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)?

    …оценивает [[Вики/галлюцинации\|галлюцинации]] в описаниях изображений ([[Вики/image captioning\|image captioning]]). Считает долю объектов, упомянутых в описании, но отсутствующих…

  • wikihuman-in-the-loop

    …Как вы делаете image captioning для RAG (извлечение описания изображения)|552. Как вы делаете image captioning для RAG (извлечение описания…

  • answerЧто такое Q-Former в BLIP-2 и зачем он нужен?

    …упрощённую версию Q-Former для генерации подписей к изображениям (image captioning) с замороженным GPT-2. Инструменты PyTorch, Hugging Face Transformers…

  • answerКак вы индексируете видео-контент в RAG-системе?

    image embeddings from keyframes) → merge & rerank → LLM takes top fragments (text + maybe image) ``` Для улучшения можно добавить [[Вики/image captioning

  • answerКак работает AudioLM и MusicGen для генерации аудио?

    …Как вы делаете image captioning для RAG (извлечение описания изображения)\|552]] | Что такое нейросетевые аудиокодеки (SoundStream, EnCodec)? | | [[553. Что такое…

  • answerЧто такое Fuyu-8B и чем архитектурно отличается от GPT-4V?

    …Специальные токены-разделители (`<[[Вики/Image\|image]]>`, `image>`) обозначают [[Вики/boundaries\|границы]]. 4. Подача в [[Вики/GPT-4o\|LLM]]. Стандартный [[Вики…

  • answerКак быть, если одно и то же изображение встречается в документах с разными подписями?

    …например, в PDF без alt-текста), можно: - Использовать модель image captioning (BLIP, GIT) для генерации подписи «на лету». - Хранить сгенерированную…

  • answerКак работает vision encoder в GPT-4V / LLaVA?

    …Поэтому vision encoder — критический компонент для задач VQA (Visual Question Answering), image captioning, мультимодального RAG. --- ## 2. Архитектура Vision Transformer (ViT…

  • answerКак вы делаете video summarization для RAG (вход — длинное видео, выход — краткое описание)?

    …inputs = processor(images=frame, return_tensors="pt") out = model.generate(**inputs, max_new_tokens=50) return processor.decode(out[0…

  • wikiИндекс терминов

    Image|Image]] - [[Вики/image captioning|image captioning]] - [[Вики/Image patches as tokens|Image patches as tokens]] - [[Вики/image retrieval|image

  • indexИндекс разборов

    …Как вы делаете image captioning для RAG (извлечение описания изображения)\|552. Как вы делаете image captioning для RAG (извлечение описания…

  • indexОглавление

    …Как вы делаете image captioning для RAG (извлечение описания изображения)\|552. Как вы делаете image captioning для RAG (извлечение описания…

  • question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)

    …Как вы делаете image captioning для RAG (извлечение описания изображения)?** > _Ответ:_ > > - **BLIP-2** или **LLaVA** — best-in-class для captioning