Поиск
- answerКак работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?
…Сравнение с другими подходами к мультимодальному выравниванию | Модель | Тип выравнивания | Обработка изображений | Генерация изображений | |--------|------------------|-----------------------|-----------------------| | [[Вики/Chameleon\|Chameleon]] | Единый токенизатор + авторегрессия…
- wikiasync call
…генерацию не блокирует выполнение; используется для длительных операций (например, генерация изображений). ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…
- wikiTop-k routing
…Как вы делаете synthetic eval (генерация тестовых вопросов по документам)|687. Как вы делаете synthetic eval (генерация тестовых вопросов по…
- answerЧем мультимодальный RAG отличается от «OCR + текстовый RAG»? Почему второго недостаточно?
…Можно fine-tune. | | [[Вики/CogVLM\|CogVLM]] | Генерация | Сильное понимание изображений. | | [[Вики/LayoutLMv3\|LayoutLMv3]] | Понимание документов | Специализирован для документов с layout…
- answerКак работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?
…Вики/Autoregressive\|авторегрессия]] изображений (даже в токенном пространстве) дороже, чем [[Вики/generation\|генерация]] через диффузию. - Качество изображений — [[Вики/дискретные токены…
- wikiimage captioning
# image captioning ## Определение Задача автоматического создания текстового описания изображения. В RAG применяется для извлечения текстового представления изображения с целью последующей…
- answerКак вы делаете RAG для изображений (image retrieval without text)?
…Как вы делаете RAG для изображений (image retrieval without text)? ## Краткий тезис RAG для изображений без текста строится на мультимодальных…
- answerКак вы делаете retrieval для изображений с защитой авторских прав (watermarking)?
…получает запрос, выбирает инструменты (поиск изображений, детекция водяных знаков, удаление, генерация ответа). Пример workflow: 1. Пользователь: "Найди фото кота с…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с мультимодальными документами
…Технологический стек | Компонент | Инструменты | Назначение | |-----------|-------------|------------| | Парсинг PDF | PyMuPDF (fitz), pdfplumber, camelot-py | Извлечение текста, таблиц, изображений | | Обработка изображений | PIL/Pillow…
- answerКакие embedding-модели для мультимодального поиска вы используете? CLIP, BLIP-2, ImageBind?
…Используется как [[Вики/embedding-модель\|энкодер]] для индексации изображений: изображения → [[Вики/embedding\|эмбеддинги]], текстовые [[Вики/Query\|запросы]] → [[Вики/embedding\|эмбеддинги…
- answerКак работает diffusion backends для генерации изображений в AI-агентах?
…Как работает diffusion backends для генерации изображений в AI-агентах? ## Краткий тезис [[Вики/diffusion backends\|Diffusion backend]] — это сервис или…
- answerКак быть, если одно и то же изображение встречается в документах с разными подписями?
…CLIP (openai/clip-vit-base-patch32) для эмбеддингов изображений и текста - Датасет: 10-20 изображений из Wikimedia Commons, для каждого…
- answerКак работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)?
…по текстовому запросу искать top-5 результатов. 5. Генерация: для найденных изображений использовать предварительно сохранённый caption (или генерировать через BLIP…
- answerКак вы делаете image retrieval по тексту с высокой точностью?
…Комбинация этих методов даёт [[Вики/accuracy\|точность]], близкую к человеческой, в задачах поиска изображений. --- ## 1. Термин: Image retrieval по тексту…
- answerЧто такое diffusion backends для генерации изображений (Stable Diffusion, Flux) и как их вызывать из агента?
…Что такое diffusion backends для генерации изображений (Stable Diffusion, Flux) и как их вызывать из агента? ## Краткий тезис [[Вики/diffusion…
- answerКак вы парсите сложные PDF с таблицами и графиками (не просто текст)?
…детекция таблиц, изображений, заголовков; поддержка OCR через Tesseract | Требует настройки, может быть избыточен для простых PDF | | **Table Transformer (TATR)** | Модель…
- wikiSelf-RAG
…Как вы делаете RAG для изображений (image retrieval without text)|541. Как вы делаете RAG для изображений (image retrieval without…
- answerКак работает AudioLM и MusicGen для генерации аудио?
…Генерация аудио и её сложности [[Вики/генерация аудио\|Генерация аудио]] — [[Вики/Task\|задача]] создания звуковых сигналов (речь, музыка, шумы) по…
- answerКак работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей?
…Генерация подписи | CIDEr, BLEU, ROUGE, SPICE | 5 эталонных подписей на изображение | | [[Вики/Flickr30k\|Flickr30k]] | Генерация подписи | BLEU, METEOR | 31k изображений…
- answerКак работает Q-Former в BLIP-2 и зачем он нужен?
…распознавание текста на изображении (OCR) — bottleneck потеряет символы. - Требуется генерация изображений (Q-Former не предназначен для этого). - Можно позволить себе…
- answerКак вы тестируете видение модели (vision-language) на пропущенные детали?
…модификации изображений. - Библиотека `[[Вики/VALSE\|valse]]` (если есть) или ручная [[Вики/generation\|генерация]]. **Шаги**: 1. Выберите 50 изображений из [[Вики…
- answerКак работает модели типа Kosmos-2 (grounding объектов на изображении)?
…3. **[[Вики/autoregressive generation\|Авторегрессивная генерация]]:** [[Вики/GPT-4o\|LLM]] генерирует [[Вики/cost\|токены]] один за другим. Когда [[Вики/model…
- answerКак вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)?
…Галлюцинации в мультимодальных моделях [[Вики/галлюцинации\|Галлюцинации]] ([[Вики/галлюцинации\|hallucinations]]) в [[Вики/VLM\|VLM]] — это [[Вики/generation\|генерация]] информации, которая…
- answerКак вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)?
…галлюцинации в мультимодальных моделях [[Вики/hallucination\|Галлюцинация]] — это [[Вики/generation\|генерация]] моделью фактов, не соответствующих входному изображению или контексту. В…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить self-training с псевдо-метками
…Исходные данные | Что нужно | Откуда взять | |-----------|--------------| | Набор изображений для классификации (CIFAR-10) | torchvision.datasets.CIFAR10 (встроен в PyTorch) | | Размеченная подвыборка…
- answerЧто такое reflection loops для агентов и как они работают?
…Работает итеративно: [[Вики/generation\|генерация]] → [[Вики/Check\|проверка]] → [[Вики/observation\|обратная связь]] → повторная [[Вики/generation\|генерация]]. Ограничивается числом итераций (обычно…
- answerЧто такое adversarial patch для vision-language моделей (физическая атака)?
…Поэтому [[Вики/generation\|генерация]] физического патча включает симуляцию этих трансформаций во время оптимизации. --- ## 2. Как работают VL-модели и почему…
- answerКак вы проектируете multimodal RAG для диаграмм (flowchart, architecture diagram)?
…8. [[Вики/inference\|Генерация]]: найденный контекст (текстовое описание диаграммы) подаётся в LLM для ответа. Опционально — передача изображения в VL-LLM…
- answerКак вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал?
…диаграмма — изображение → используем [[Вики/multimodal embedding\|мультимодальный эмбеддер]] (например, [[Вики/CLIP\|CLIP]]) для поиска изображений, затем [[Вики/Tesseract OCR\|OCR…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG на 100 PDF
…4. [[Вики/Docling не работает\|Docling не работает]] – извлекаем текст через PyMuPDF (fitz) или pdfplumber, а для изображений используем OCR…
- answerКак работает Whisper архитектурно для ASR (Automatic Speech Recognition)?
…авторегрессивная генерация [[Вики/Decoder\|Decoder]] [[Вики/Whisper\|Whisper]] — это стандартный [[Вики/трансформер-декодер\|autoregressive transformer]] [[Вики/Decoder\|decoder]]. Он генерирует…
- answerКак вы делаете RAG для видео (индексация subshots, аудио, ключевые кадры)?
…Поиск и генерация ответа На этапе inference пользователь задаёт текстовый вопрос. Его эмбеддим той же текстовой моделью (например, CLIP text…
- answerКак вы проектируете систему для real-time video understanding (поток с камеры)?
…Что такое diffusion backends для генерации изображений (Stable Diffusion, Flux) и как их вызывать из агента\|548]] | Как вы проектируете…
- answerПочему агенты деградируют на длинных horizon (более 10 шагов)?
…выполняют конкретные действия (retrieval, вызов API, генерация ответа). Преимущества - Каждый уровень работает на своём горизонте (manager — 3–5 шагов, worker…
- answerКак делать feature engineering для RAG (кроме текста)?
…авторитетность), связь с другими документами | | Структурные | Количество заголовков, таблиц, изображений, ссылок в чанке; уровень иерархии (section/subsection) | Числовые | Определение типа…
- answerКак вы измеряете diversity синтетического датасета?
…Как вы проектируете dynamic benchmark (меняющийся со временем)\|689]] | Генерация синтетических данных для RAG | | [[691. Как вы делаем synthetic data…
- answerКак вы проектируете Kafka топологии для RAG ingestion?
…2. [[Вики/parsing\|Парсинг]] — [[Вики/retrieval\|извлечение]] текста, таблиц, изображений ([[Вики/PDF\|PDF]], [[Вики/HTML\|HTML]], [[Вики/DOCX\|Docx]]). 3…
- answerЧто такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (<16GB)?
…Пример бенчмарка ```python import faiss import time import numpy as np dim = 768 n = 10_000_000 nq = 1000 # Генерация…
- answerЧто такое weak supervision для разметки данных для fine-tuning и как его применить?
…Поддержка текста, изображений, таблиц. Модуль `snorkel.labeling` + `LabelModel`. - [[Вики/Skweak\|Skweak]] — лёгкая альтернатива для текста, основанная на spaCy. Подходит для…
- answerКак вы извлекаете *логические отношения* из диаграммы, а не просто текст?
…пользовательский вопрос (например, «Какое действие следует за проверкой температуры?») → поиск похожего графа → подача графа и вопроса в LLM → генерация ответа…
- answerКак вы представляете граф знаний из изображения для LLM?
…Что такое Layout-Aware Chunking и как он связан с мультимодальностью\|114]] | Как построить мультимодальные эмбеддинги для изображений и текста…
- answerКак вы проектируете ETL пайплайн для 1M документов/день в RAG систему?
…Chunking service, Embedding service | Парсинг, очистка, разбиение на чанки, генерация эмбеддингов | | Load | Vector DB bulk inserter, Indexing service | Пакетная запись…
- question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Как вы делаете RAG для изображений (image retrieval without text)?** > _Ответ:_ > > - CLIP embeddings для всех изображений (индексируем в векторной БД…
- indexИндекс разборов
…Как работает diffusion backends для генерации изображений в AI-агентах\|369. Как работает diffusion backends для генерации изображений в AI…
- indexОглавление
…Как работает diffusion backends для генерации изображений в AI-агентах\|369. Как работает diffusion backends для генерации изображений в]] - [[Вопросы…
- wikiИндекс терминов
…Вики/галлюцинация мультимодальной модели|галлюцинация мультимодальной модели]] - [[Вики/генерация аудио|генерация аудио]] - [[Вики/гибкость|гибкость]] - [[Вики/гибридные архитектуры|гибридные архитектуры…