Поиск

wikimultimodal LLM
# multimodal LLM ## Определение Большая языковая модель, способная принимать на вход и обрабатывать данные разных типов: текст, изображения, аудио. Преодолевает ограничение…
wikimultimodal embedding
…Как вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал|118. Как вы проверяете, что LLM правильно «понял…
answerЧем мультимодальный RAG отличается от «OCR + текстовый RAG»? Почему второго недостаточно?
…мультимодальные эмбеддинги и LLM дороже текстовых. 2. [[Вики/p50\|Latency]]: обработка изображений (особенно больших) медленнее. 3. Размер контекста: изображения занимают…
answerЧто такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
…Мультимодальные LLM [[Вики/multimodal LLM\|Мультимодальная LLM]] — это [[Вики/LLM\|большая языковая модель]], способная обрабатывать и понимать данные разных типов…
answerКак вы делаете RAG для изображений (image retrieval without text)?
…Решение — использовать [[Вики/multimodal embedding\|мультимодальные эмбеддинги]], которые кодируют и изображения, и текст в общее пространство, позволяя сравнивать их напрямую…
answerЧто такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
…Как работает vision encoder в GPT-4V LLaVA\|538]] | Что такое мультимодальные LLM и как они работают? | | [[540. Как работает…
answerКак быть, если одно и то же изображение встречается в документах с разными подписями?
…3. [[Вики/generation\|Генерация]] ответа: - [[Вики/LLM\|LLM]] получает изображение и выбранную подпись как часть контекста. - Подпись помогает [[Вики/LLM…
answerВ чем проблема «natural language bottleneck» для LLM?
…Возможные решения | Решение | Описание | Пример | |---------|----------|--------| | [[Вики/multimodal LLM\|Мультимодальные LLM]] | Модели, которые принимают на вход изображения, аудио, числовые ряды (например…
answerКак вы делаете image captioning для RAG (извлечение описания изображения)?
…использование мультимодальных LLM напрямую Вместо отдельного [[Вики/image captioning\|captioning]] можно использовать **[[Вики/multimodal LLM\|мультимодальные LLM]]** ([[Вики/GPT-4V…
answerКак вы представляете граф знаний из изображения для LLM?
…эмбеддинг) и попросить [[Вики/GPT-4o\|LLM]] «увидеть» [[Вики/Graph\|граф]]. Современные мультимодальные модели ([[Вики/OpenAI API\|GPT]]‑4V, [[Вики…
answerКак работает CLIP (Contrastive Language-Image Pre-training) внутренне?
…Найденные изображения и их подписи подаются в [[Вики/GPT-4o\|LLM]] для генерации ответа. --- ## 9. Пет-проект для закрепления [[Вики…
answerКак вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал?
…Как вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал? ## Краткий тезис [[Вики/LLM\|LLM]] может дать верный…
answerКак работает OCR для RAG? Недостатки и когда его недостаточно?
…для распознавания таблиц. **[[Вики/VL-LLM\|Vision-Language LLM]] ([[Вики/VL-LLM\|VL-LLM]])** — мультимодальные модели, которые «видят» документ целиком…
answerКак тестировать промпты (prompt regression testing)?
…изменение на 10% косинусной дистанции); - для [[Вики/LLM-as-a-judge\|LLM-as-Judge]]: ε = 1 балл по 5-балльной…
answerКак вы проектируете feature engineering для контекста RAG (кроме текста)?
…Зачем это нужно - [[Вики/LLM\|LLM]] не видит [[Вики/метаданные\|метаданные]] документа, если их явно не добавить в контекст. - Фичи…
answerКак спроектировать систему, где LLM должна работать с конфиденциальными данными (медицина, финансы)?
…Как спроектировать систему, где LLM должна работать с конфиденциальными данными (медицина, финансы)? ## Краткий тезис Проектирование LLM-системы для работы с…
answerЧто такое red teaming certification (стандарты 2026 для оценки robustness)?
…Sensitive Information Disclosure (раскрытие чувствительной информации). - LLM07: Insecure Plugin Design (небезопасные плагины/инструменты). - LLM08: Excessive Agency (чрезмерная автономность агента). - LLM09…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с мультимодальными документами
…Вызвать LLM (через openai или Ollama) # 5. Вернуть ответ ``` 2. [[Вики/Поддержка мультимодального LLM\|Поддержка мультимодального LLM]] (опционально): если используете…
answerКак работает diffusion backends для генерации изображений в AI-агентах?
…Архитектура интеграции diffusion backend в AI-агента Типичный [[Вики/agent\|AI-агент]] (на базе [[Вики/LLM\|LLM]]) работает по циклу…
answerКак работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)?
…В [[Вики/Контекст LLM\|контекст LLM]] подаётся текст caption вместо самого изображения. - **[[Вики/VL-LLM\|Vision-language model]]**: если [[Вики…
answerКак работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения?
…Как токенизация влияет на LLM - Качество генерации: плохая [[Вики/tokenizer\|токенизация]] (например, [[Вики/chunking\|разбиение]] чисел) ухудшает [[Вики/способность модели…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить trajectory coverage для агентов
…Добавить в агента логгер шагов Каждый [[Вики/OpenAI Functions\|вызов инструмента]] или [[Вики/LLM\|LLM]] фиксировать с полями: - `[[Вики/session…
answerКак вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)?
…Как вы тестируете агентов (сложно из-за стохастичности)\|45]] | Как бороться с галлюцинациями в LLM? | | [[132. Как вы калибруете LLM…
answerКак вы защищаете LLM от prompt injection через изображения (VL-модели)?
…Как вы защищаете LLM от prompt injection через изображения (VL-модели)? ## Краткий тезис [[Вики/промпт агента\|Prompt]] [[Вики/Prompt injection…
answerЧто такое SigLIP и чем отличается от CLIP?
…Как работает vision encoder в GPT-4V LLaVA\|538]] | Как использовать мультимодальные эмбеддинги в RAG? | | [[520. Как вы проектируете data…
answerКак работает packing для variable-length sequences в FSDP?
…Что такое curriculum learning на уровне данных для LLM\|477]] | Какие стратегии шардирования параметров существуют в FSDP? | | [[480. Как работает…
answerКак работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?
…Традиционно выравнивание достигается через коннекторы (например, проекционные слои между энкодером изображений и LLM), но Chameleon использует более радикальный подход — **токенизатор…
answerЧто такое diffusion backends для генерации изображений (Stable Diffusion, Flux) и как их вызывать из агента?
…Выбор backend зависит от - Требуемого качества и скорости. - Бюджета ([[Вики/LLM endpoint\|стоимость API]] vs локальные [[Вики/GPU\|GPU]]). - Необходимости…
answerКак вы извлекаете *логические отношения* из диаграммы, а не просто текст?
…пользовательский вопрос (например, «Какое действие следует за проверкой температуры?») → поиск похожего графа → подача графа и вопроса в LLM → генерация ответа…
answerКак вы комбинируете текстовый и визуальный поиск (early fusion vs late fusion)?
…Что такое визуальные LLM и как они применяются в RAG?\|120]] | Использование мультимодальных LLM для генерации ответов | --- ## Навигация (Obsidian) - Предыдущий…
answerКак вы проверяете, что RLHF не сломал базовые способности модели?
…Оценивайте [[Вики/trade-off\|trade-off]]. - Мультимодальные модели для них добавляют [[Вики/Benchmarks\|бенчмарки]] вроде VQAv2, [[Вики/COCO Captions\|COCO…
answerЧто такое Layout-Aware Chunking и как он связан с мультимодальностью?
…Это даёт возможность послать [[Вики/GPT-4o\|LLM]] и таблицу, и её визуальное представление (как изображение) для более точного ответа…
answerКак вы индексируете видео-контент в RAG-системе?
…Проблемы и компромиссы | Проблема | Решение | |----------|---------| | Шум в транскрипции (акцент, фон) | Использовать Whisper large-v3, постобработка (LLM для исправления) | | Пустые шоты…
wikiИндекс терминов
…LLM-приложения|LLM-приложения]] - [[Вики/LLM.int8|LLM.int8]] - [[Вики/LLMChain|LLMChain]] - [[Вики/LLMLingua|LLMLingua]] - [[Вики/LLMOps|LLMOps]] - [[Вики/LLMProvider…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Назовите OWASP Top 10 для LLM (2025) и 3 самых критичных риска.** > *Ответ:* LLM01 (Prompt Injection) — 87% приложений уязвимы, LLM06…