Поиск

answerЧто такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
…Как вы строите real-time voice agent с latency 500ms\|544]] | Использование мультимодальных моделей в RAG | --- ## Навигация (Obsidian) - Предыдущий: [[538…
wikitransformers
…загрузки, обучения и инференса предобученных моделей на архитектуре Transformer, широко используемая в NLP и мультимодальных задачах. ## Где встречается - [[24. Какой…
answerКак работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?
…авторегрессивный трансформер**. --- ## 2. Архитектура Chameleon: единая модель [[Вики/Chameleon\|Chameleon]] (Meta, 2024) — это семейство мультимодальных фундаментальных моделей, которые обрабатывают текст…
answerЧто такое diffusion backends для генерации изображений (Stable Diffusion, Flux) и как их вызывать из агента?
…Как вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)\|547]] | Интеграция мультимодальных моделей в агента | | [[550. Как работает OCR…
answerКакие embedding-модели для мультимодального поиска вы используете? CLIP, BLIP-2, ImageBind?
…CLIP (Contrastive Language–Image Pre‑training) ### Архитектура и обучение [[Вики/CLIP\|CLIP]] — открытая [[Вики/model\|модель]] от [[Вики/LLM endpoint…
answerКак работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?
…Как работает CLIP и как training contrastive loss выравнивает текст и изображения\|361]] | Fusion в мультимодальных моделях: раннее vs позднее…
answerКак работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей?
…VL-моделей | | [[120. Как быть, если одно и то же изображение встречается в документах с разными подписями\|120]] | Архитектура Agentic…
answerКак работает vision encoder в GPT-4V / LLaVA?
…Vision Encoder и его роль в мультимодальных LLM **[[Вики/Vision encoder\|Vision encoder]]** — это [[Вики/neural network\|нейросеть]], которая извлекает…
answerКак вы защищаете LLM от prompt injection через изображения (VL-модели)?
…Что такое adversarial patch для vision-language моделей (физическая атака)\|615]] | Adversarial robustness мультимодальных моделей | | [[617. Как вы защищаете агента…
answerВ чем проблема «natural language bottleneck» для LLM?
…архитектура, в которой [[Вики/agent\|LLM-агент]] может вызывать внешние инструменты (калькуляторы, базы данных, [[Вики/API\|API]] численных моделей). Это…
answerКак работает OCR для RAG? Недостатки и когда его недостаточно?
…4. [[Вики/Post-processing\|Постобработка]] — коррекция ошибок с помощью словарей, языковых моделей. Популярные OCR-движки - [[Вики/Tesseract OCR\|Tesseract]] — открытый…
answerКак работает извлечение знаний (knowledge editing) из LLM без переобучения?
…Как работает attention между слоями (cross-layer attention) в современных архитектурах\|299]] | Как knowledge editing сочетается с RAG? | | [[300. Как…
answerКак вы делаете image captioning для RAG (извлечение описания изображения)?
…Пример гибридного [[Вики/retrieval\|retrieval]]: ```python import numpy as np from sentence_transformers import SentenceTransformer import clip # Загрузка моделей clip…
answerКак работает CLIP (Contrastive Language-Image Pre-training) внутренне?
…Что такое SigLIP и чем отличается от CLIP\|537]] | Обучение vision-language моделей (fine-tuning CLIP) | | [[538. Как работает vision…
answerКак вы комбинируете текстовый и визуальный поиск (early fusion vs late fusion)?
…Сравнение моделей для визуального эмбеддинга | | [[120. Что такое визуальные LLM и как они применяются в RAG?\|120]] | Использование мультимодальных LLM…