Поиск

wikiVision-Language Models
# Vision-Language Models ## Определение Мультимодальные модели, способные обрабатывать и связывать визуальную (изображения, видео) и текстовую информацию. Оцениваются с помощью бенчмарков…
wikiVALSE
# VALSE ## Определение Бенчмарк для проверки понимания лингвистических конструкций (предлоги, отрицания, счёт) в моделях vision-language. ## Где встречается - [[288. Как вы…
wikiInpainting
# Inpainting ## Определение Метод модификации изображений (замена или удаление объектов), используемый для создания тестовых примеров с контролируемыми изменениями при тестировании vision…
wikiMissing details
# Missing details ## Определение Ситуация, когда vision-language модель игнорирует критически важные визуальные элементы, такие как цвет, количество или пространственное расположение…
wikiVL-LLM
# VL-LLM ## Определение Мультимодальная модель, объединяющая визуальный энкодер и языковую модель для генерации описаний изображений, ответов на вопросы по картинкам…
wikiVLM
# VLM ## Определение Мультимодальная модель, объединяющая обработку визуальной и текстовой информации; применяется для задач captioning, VQA и оценки галлюцинаций. ## Где встречается…
wikiBehavioral testing
…Как вы тестируете видение модели (vision-language) на пропущенные детали|288. Как вы тестируете видение модели (vision-language) на пропущенные…
wikiobject detection
…Лежит в основе grounding в vision-language моделях. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов|Индекс терминов…
wikiVALSE benchmark
# VALSE benchmark ## Определение Бенчмарк, тестирующий способность vision-language моделей обрабатывать лингвистические явления, такие как предлоги, множественные числа, отрицания. ## Где встречается…
wikiphysical attack
# physical attack ## Определение Атака на vision-language модели с использованием физических объектов (например, adversarial patch) для обмана модели в реальном…
wikiobject swapping
# object swapping ## Определение Метод тестирования vision-language моделей, при котором объекты на изображении заменяются для проверки, замечает ли модель изменения…
wikiadversarial examples
…Как вы тестируете видение модели (vision-language) на пропущенные детали|288. Как вы тестируете видение модели (vision-language) на пропущенные…
wikiViLT
# ViLT ## Определение Vision-Language Transformer — мультимодальная модель, которая объединяет модальности без отдельного image encoder, за счёт чего работает быстрее, но…
answerЧто такое adversarial patch для vision-language моделей (физическая атака)?
…Что такое adversarial patch для vision-language моделей (физическая атака)? ## Краткий тезис [[Вики/adversarial patch\|Adversarial patch]] — это физический объект…
wikirobustness
…Как вы тестируете видение модели (vision-language) на пропущенные детали|288. Как вы тестируете видение модели (vision-language) на пропущенные…
answerКак вы тестируете видение модели (vision-language) на пропущенные детали?
…Как вы тестируете видение модели (vision-language) на пропущенные детали? ## Краткий тезис [[Вики/inference\|Тестирование]] vision-language моделей ([[Вики/VLM…
answerКак вы защищаете LLM от prompt injection через изображения (VL-модели)?
…Что такое adversarial patch для vision-language моделей (физическая атака)\|615]] | Adversarial robustness мультимодальных моделей | | [[617. Как вы защищаете агента…
answerКак работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей?
…зачем нужна мультимодальная эвалюация [[Вики/Vision-Language Models\|VL-модели]] ([[Вики/Vision-Language Models\|Vision-Language models]]) — это модели, которые…
wikiBLIP-2
…Показывает высокую эффективность в задачах vision-language, таких как image captioning. ## Где встречается - [[116. Как вы индексируете видео-контент в…
wikiaccuracy
…Как вы тестируете видение модели (vision-language) на пропущенные детали|288. Как вы тестируете видение модели (vision-language) на пропущенные…
wikiкосинусная близость
…Как вы тестируете видение модели (vision-language) на пропущенные детали|288. Как вы тестируете видение модели (vision-language) на пропущенные…
wikiLLM-as-a-judge
…Как вы тестируете видение модели (vision-language) на пропущенные детали|288. Как вы тестируете видение модели (vision-language) на пропущенные…
answerКак работает градиентный анализ для объяснения решений LLM?
…Как вы тестируете видение модели (vision-language) на пропущенные детали\|288]] | Как использовать SHAP для объяснения RAG? | | [[289. Как работает…
answerКак работает OCR для RAG? Недостатки и когда его недостаточно?
…aware parsing\|layout-aware parsing]] и использование **[[Вики/VLM\|Vision-Language LLM]] ([[Вики/VLM\|VL-LLM]])**. --- ## 1. Термин: OCR (Optical…
answerКак работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)?
…В [[Вики/Контекст LLM\|контекст LLM]] подаётся текст caption вместо самого изображения. - **[[Вики/VL-LLM\|Vision-language model]]**: если [[Вики…
answerКак работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения?
…использует [[Вики/патчи\|патчи]] байтов для ускорения. - Мультимодальные токенизаторы ([[Вики/Image\|Image]] tokenizers для Vision-Language моделей) — отдельная область. ## 9…
answerКак вы делаете video summarization для RAG (вход — длинное видео, выход — краткое описание)?
…Основной подход включает извлечение ключевых кадров, их описание через vision-language модели (VL-LLM), временное моделирование для учёта динамики и…
answerЧто такое Q-Former в BLIP-2 и зачем он нужен?
…2]] — это [[Вики/VLM\|мультимодальная модель]], предназначенная для задач vision-language (подпись к изображению, [[Вики/VQA\|VQA]], диалог по изображению…
answerКак вы делаете image captioning для RAG (извлечение описания изображения)?
…BLIP-2 и LLaVA Для [[Вики/image captioning\|captioning]] в [[Вики/гибридный поиск\|RAG]] используются **Vision-Language модели ([[Вики/VLM…
answerКак работает rainbow teaming (комбинация red + blue + purple teaming для LLM)?
…Что такое adversarial patch для vision-language моделей (физическая атака)\|615]] | Как работает red teaming для LLM? | | [[617. Как вы…
answerКак работает speculative decoding на уровне логитов, а не токенов?
…Как вы тестируете видение модели (vision-language) на пропущенные детали\|288]] | Как работает KV-cache и как он ускоряет инференс…
answerКак вы парсите сложные PDF с таблицами и графиками (не просто текст)?
…Позволяет выделить [[Вики/boundaries\|границы]] таблиц и ячеек. - **VL-LLM (Vision-Language Large Language Model)** — LLM|мультимодальная LLM, способная обрабатывать…
answerКак вы защищаете агента от tool injection (вредоносный API ответ)?
…Что такое adversarial patch для vision-language моделей (физическая атака)\|615]] | Как проектировать агента с безопасностью? | | [[616. Как работает rainbow…
answerЧто такое selective attention в контексте long context обработки?
…Как вы тестируете видение модели (vision-language) на пропущенные детали\|288]] | Agentic RAG: архитектура и компоненты | --- ## 11. Навигация (Obsidian) - Предыдущий…
answerКак масштабировать vLLM на несколько GPU/нод?
…Что такое adversarial patch для vision-language моделей (физическая атака)\|615]] | Inference quantization (FP8, INT4) – как сократить потребление памяти и…
answerЧто такое data exfiltration через LLM (утечка данных через ответы)?
…Что такое adversarial patch для vision-language моделей (физическая атака)\|615]] | Фильтрация контекста в RAG | | [[620. Что такое differential privacy…
answerЧто такое differential privacy для LLM и как она работает?
…Что такое adversarial patch для vision-language моделей (физическая атака)\|615]] | Безопасность и приватность в RAG | | [[618. Что такое jailbreak…
answerКак работает CLIP (Contrastive Language-Image Pre-training) внутренне?
…Что такое SigLIP и чем отличается от CLIP\|537]] | Обучение vision-language моделей (fine-tuning CLIP) | | [[538. Как работает vision…
answerКак работает model watermarking для LLM (идентификация модели-источника)?
…Что такое adversarial patch для vision-language моделей (физическая атака)\|615]] | Какие атаки на LLM существуют и как от них…
answerЧем мультимодальный RAG отличается от «OCR + текстовый RAG»? Почему второго недостаточно?
…Мультимодальный RAG с визуальным пониманием (vision-language model) может «увидеть» максимум на графике и ответить. ### 3.3 Таблицы со сложной…
answerКак работает LLM fingerprinting (идентификация модели по ответам)?
…Что такое adversarial patch для vision-language моделей (физическая атака)\|615]] | Безопасность RAG-систем | | [[616. Как работает rainbow teaming (комбинация…
answerЧто такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься?
…Что такое adversarial patch для vision-language моделей (физическая атака)\|615]] | Red teaming LLM | | [[616. Как работает rainbow teaming (комбинация…
answerКакие embedding-модели для мультимодального поиска вы используете? CLIP, BLIP-2, ImageBind?
…Чуть лучше CLIP в некоторых бенчмарках, но веса недоступны. - [[Вики/ViLT\|ViLT]] (Kakao) — vision‑language transformer без отдельного image encoder…
answerКак вы защищаете LLM от prompt injection через RAG (когда документ содержит инструкцию)?
…Что такое adversarial patch для vision-language моделей (физическая атака)\|615]] - Индекс: [[00. Индекс разборов]]
answerКак вы проектируете multimodal RAG для диаграмм (flowchart, architecture diagram)?
…похожих структур. **[[Вики/VLM\|VL-LLM]] ([[Вики/VL-LLM\|Vision-Language Large Language Model]])** — [[Вики/multimodal LLM\|мультимодальная LLM]], способная…
indexИндекс разборов
…Как вы тестируете видение модели (vision-language) на пропущенные детали\|288. Как вы тестируете видение модели (vision-language) на пропущенные…
indexОглавление
…Как вы тестируете видение модели (vision-language) на пропущенные детали\|288. Как вы тестируете видение модели (vision-language) на пропущ…
indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING
…104, Exist 628 | | 287 | Градиентный анализ | Q 147 | | 288 | Vision-language | Pet 234 | | 289 | Speculative decoding | Inf 208 | | 290 | Latent…
wikiИндекс терминов
…Timeout]] - [[Вики/Vision encoder|Vision encoder]] - [[Вики/Vision-Language Models|Vision-Language Models]] - [[Вики/Visit count|Visit count]] - [[Вики/Visual…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Как вы тестируете видение модели (vision-language) на пропущенные детали?** > *Ответ:* VALSE benchmark: предлоги, множественное число, отрицания. Подменяем объекты на…