Поиск
- answerКак работает vision encoder в GPT-4V / LLaVA?
…Как работает vision encoder в GPT-4V / LLaVA? ## Краткий тезис **[[Вики/Vision encoder\|Vision encoder]]** — это компонент мультимодальной [[Вики/LLM…
- wikiVision encoder
# Vision encoder ## Определение Компонент мультимодальных моделей (например, GPT-4V, LLaVA), который извлекает признаки из изображений и проецирует их в пространство…
- answerЧто такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
…Нет отдельного [[Вики/Vision encoder\|vision encoder]] — [[Вики/model\|модель]] сама учится извлекать визуальные признаки через [[Вики/End-to-end…
- answerЧто такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
…1. **[[Вики/Vision encoder\|Vision encoder]]**. Предположительно, это [[Вики/ViT-L14\|ViT-L/14]] ([[Вики/Vision encoder\|Vision Transformer]]) или…
- answerКак вы проектируете систему для real-time video understanding (поток с камеры)?
…Vision encoder: извлечение признаков из кадров **[[Вики/Vision encoder\|Vision encoder]]** — [[Вики/neural network\|нейросеть]], преобразующая изображение в [[Вики/embedding…
- wikiViT-L/14
# ViT-L/14 ## Определение Конкретная версия Vision Transformer с размером патча 14x14 пикселей. Применяется как vision encoder в GPT-4V…
- answerКакие embedding-модели для мультимодального поиска вы используете? CLIP, BLIP-2, ImageBind?
…Состоит из двух независимых энкодеров: - [[Вики/Text encoder\|Text encoder]] ([[Вики/Transformer\|Transformer]]) → [[Вики/embedding\|вектор]] текста - [[Вики/Vision encoder…
- answerЧто такое Q-Former в BLIP-2 и зачем он нужен?
…Он вызывает vision encoder + Q-Former, получает текстовое описание (например, «ResNet с 50 слоями»), затем использует это описание для поиска…
- answerЧто такое SigLIP и чем отличается от CLIP?
…предобученный [[Вики/Vision encoder\|image encoder]] (например, на JFT-3B) замораживается, а [[Вики/Text encoder\|text encoder]] обучается с нуля…
- answerКак работают browser agents и computer use agents (Claude Computer Use)?
…Архитектура обоих типов строится по схеме «[[Вики/мониторинг\|наблюдение]] → vision/текстовый [[Вики/embedding-модель\|encoder]] → [[Вики/LLM\|LLM]] → действие», но…
- wikiCLS Token
# CLS Token ## Определение Специальный токен, добавляемый к последовательности патчей в архитектуре vision encoder (например, ViT) для агрегации информации и последующей…
- wikiPatch Embedding
…Используется в vision encoder моделей типа GPT-4V / LLaVA. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiProjection
# Projection ## Определение Линейный слой, преобразующий эмбеддинги из одного пространства (например, vision encoder) в пространство эмбеддингов LLM. ## Где встречается - [[549. Как…
- answerКак работает Q-Former в BLIP-2 и зачем он нужен?
…2. **[[Вики/Cross-attention\|Cross-attention]]** с выходом [[Вики/Vision encoder\|vision encoder]] ([[Вики/Vision encoder\|ViT]]) — [[Вики/Query Tokens…
- wikiResampler
# Resampler ## Определение Слой в мультимодальных моделях (например, Kosmos-2), который преобразует последовательность визуальных признаков от vision encoder в фиксированное количество…
- wikiUP-Fall
# UP-Fall ## Определение Датасет, содержащий записи падений человека, используемый для дообучения vision encoder'ов с целью детекции падений в видеопотоке…
- wikiVideoCoCa
# VideoCoCa ## Определение Архитектура для видео, объединяющая vision encoder и языковую модель с temporal modeling для real-time понимания. ## Где встречается…
- wikiViLT
# ViLT ## Определение Vision-Language Transformer — мультимодальная модель, которая объединяет модальности без отдельного image encoder, за счёт чего работает быстрее, но…
- wikiMLP Projection
# MLP Projection ## Определение Проекционный слой на базе MLP, приводящий размерность эмбеддингов vision encoder к размерности эмбеддингов LLM в мультимодальных моделях…
- wikiVideoMAE
# VideoMAE ## Определение Модель маскированного автоэнкодера для представлений видео, используемая как vision encoder. ## Где встречается - [[549. Как вы проектируете систему для…
- wikiGPT-4V
# GPT-4V ## Определение Мультимодальная версия GPT-4 с отдельным vision encoder (ViT) и проекционным слоем в пространство LLM. Способна обрабатывать…
- answerКак работает CLIP (Contrastive Language-Image Pre-training) внутренне?
…Все изображения индексируются через [[Вики/Vision encoder\|image encoder]] [[Вики/CLIP\|CLIP]] → [[Вики/Chroma\|векторная БД]]. 2. [[Вики/Prompt engineering…
- answerКак вы проектируете систему для real-time video understanding (поток с камер)?
…агрессивный [[Вики/frame sampling\|frame sampling]] (1–5 кадров в секунду), лёгкий [[Вики/Vision encoder\|vision encoder]] (например, ViT-S…
- wikiViT
…Используется в качестве vision encoder в моделях GPT-4V, BLIP-2, LayoutLMv3 и других. ## Где встречается - [[116. Как вы индексируете…
- answerКак работает Zero-shot classification для изображений (CLIP vs другие методы)?
…Архитектура состоит из двух энкодеров: - [[Вики/Vision encoder\|Image encoder]] (обычно [[Вики/Vision encoder\|Vision Transformer]] [[Вики/Vision encoder\|ViT…
- answerКак вы делаете image retrieval по тексту с высокой точностью?
…Архитектура [[Вики/Re-ranker\|reranker]] - Берём [[Вики/CLIP\|CLIP]] [[Вики/ViT-L14\|ViT-L]] как [[Вики/Vision encoder\|image encoder…
- wikiFuyu-8B
…разбиения на патчи и квантования в токены без отдельного vision encoder. ## Где встречается - [[362. Что такое Fuyu-8B и чем…
- answerКак работает CLIP и как training contrastive loss выравнивает текст и изображения?
…2. **[[Вики/Vision encoder\|Image Encoder]]** выдаёт матрицу эмбеддингов изображений `I` размером `(N, d)`. 3. **[[Вики/Text encoder\|Text Encoder…
- answerКак вы делаете RAG для изображений (image retrieval without text)?
…Она состоит из двух энкодеров: **[[Вики/Image\|Image]] [[Вики/embedding-модель\|Encoder]]** (обычно [[Вики/Vision encoder\|ViT]] или [[Вики/ResNet…
- wikiFlamingo
# Flamingo ## Определение Мультимодальная модель DeepMind с замороженным vision encoder и gated cross-attention для обработки текста и изображений. ## Где встречается…
- answerКак вы комбинируете текстовый и визуальный поиск (early fusion vs late fusion)?
…текст → [[Вики/Text encoder\|text encoder]], изображение → [[Вики/Vision encoder\|image encoder]] → общий эмбеддинг после проекции). Эмбеддинг сохраняется в векторной…
- answerКак работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)?
…пользователя] ──> CLIP text encoder ──> [Вектор запроса] ──> Поиск по индексу ──> [Результаты: текст + изображения] [Результаты] ──> LLM (с поддержкой vision или через caption…
- wikiBLIP-2
# BLIP-2 ## Определение Улучшенная версия BLIP, использующая Q-Former для соединения замороженного vision encoder и frozen LLM. Показывает высокую эффективность…
- wikiQ-Former
# Q-Former ## Определение Модуль-мост между frozen vision encoder и frozen LLM в архитектуре BLIP-2. Использует learnable query tokens…
- answerКак вы делаете image captioning для RAG (извлечение описания изображения)?
…изображение → [[Вики/Vision encoder\|ViT encoder]] → [[Вики/Q-Former\|Q-Former]] → [[Вики/GPT-4o\|LLM]] → текст. - [[Вики/LLaVA\|LLaVA]]: изображение…
- answerКак вы индексируете видео-контент в RAG-системе?
…Альтернативы - [[Вики/ViT\|ViT]] ([[Вики/Vision encoder\|Vision Transformer]]) — только изображения, не выровнен с текстом (нужно дообучать). - [[Вики/SigLIP\|SigLIP…
- answerЧто такое adversarial patch для vision-language моделей (физическая атака)?
…Вики/FLAVA\|Flava]]) состоят из визуального энкодера (обычно [[Вики/Vision encoder\|ViT]] или [[Вики/ResNet\|ResNet]]) и текстового энкодера ([[Вики…
- answerКак работает модели типа Kosmos-2 (grounding объектов на изображении)?
…Кодирование изображения [[Вики/Vision encoder\|Vision Encoder]] + [[Вики/Resampler\|Resampler]] → [[Вики/sequence\|последовательность]] визуальных токенов. 2. [[Вики/Prompt engineering\|Формирование…
- answerКак вы делаете video summarization для RAG (вход — длинное видео, выход — краткое описание)?
…Вики/VL-LLM\|VL-LLM]] или отдельного [[Вики/Vision encoder\|vision encoder]]), подаём их в [[Вики/Transformer\|transformer]] (например, [[Вики…
- wikiкосинусная близость
…Как вы тестируете видение модели (vision-language) на пропущенные детали|288. Как вы тестируете видение модели (vision-language) на пропущенные…
- answerКак вы делаете RAG для видео (индексация subshots, аудио, ключевые кадры)?
…CLIP text encoder | | Векторная БД | FAISS, Milvus, Qdrant, Pinecone | | Мультимодальный LLM | GPT-4V, LLaVA, Gemini Pro Vision | --- ## 10. Сравнение с…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с мультимодальными документами
…если LLM мультимодальная (GPT-4 с vision), передайте base64; иначе опишите изображение через CLIP captioning (можно использовать `BLIP` или просто…
- answerЧто такое LayoutLMv3 и зачем он для document understanding?
…Архитектура LayoutLMv3 [[Вики/LayoutLMv3\|LayoutLMv3]] — это [[Вики/Encoder-only transformer\|encoder-only transformer]], основанный на [[Вики/RoBERTa\|RoBERTa]]. Он принимает…
- answerКак вы делаете retrieval для изображений с защитой авторских прав (watermarking)?
…Embedding-модели ([[Вики/CLIP\|CLIP]], [[Вики/Vision encoder\|ViT]], [[Вики/ResNet\|ResNet]]) обучаются на огромном количестве данных и обычно инвариантны…
- answerКак вы проектируете multimodal RAG для диаграмм (flowchart, architecture diagram)?
…Индексация encoder = SentenceTransformer('all-MiniLM-L6-v2') embedding = encoder.encode([description]) index = faiss.IndexFlatL2(384) index.add(embedding) # 6. Retrieval…
- answerКак работает LayerNorm и RMSNorm? В чем разница и почему RMSNorm быстрее?
…Вики/BERT\|BERT]], [[Вики/DistilGPT2\|GPT-2]], T5, [[Вики/Vision encoder\|ViT]]. - [[Вики/RMSNorm\|RMSNorm]] — стандарт в современных открытых [[Вики…
- answerКак быть, если одно и то же изображение встречается в документах с разными подписями?
…Передать изображение (как URL) и выбранную подпись в LLM (например, через OpenAI Vision API) и получить ответ. 6. Сравнить качество…
- answerКак вы делаете data quality для синтетических датасетов?
…Как работает vision encoder в GPT-4V LLaVA\|538]] | Как мониторить agentic RAG-систему? | | [[5. Как вы оцениваете качество retrieval…
- question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…патчи изображения как токены, без vision encoder, end-to-end. GPT-4V: отдельный vision encoder (ViT) + проекция в пространство LLM…
- wikiИндекс терминов
…Visibility Timeout|Visibility Timeout]] - [[Вики/Vision encoder|Vision encoder]] - [[Вики/Vision-Language Models|Vision-Language Models]] - [[Вики/Visit count|Visit…