English translation is not available yet. Showing Russian content.
LLaVA
LLaVA
Определение
Мультимодальная модель для обработки изображений и текста, используемая в image captioning и ответах по диаграммам.
Где встречается
- 362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 365. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
- 368. Как вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)
- 539. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 540. Как работает Q-Former в BLIP-2 и зачем он нужен
- 542. Как вы парсите сложные PDF с таблицами и графиками (не просто текст)
- 547. Как вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)
- 550. Как работает OCR для RAG Недостатки и когда его недостаточно
- 552. Как вы делаете image captioning для RAG (извлечение описания изображения)
- 555. Как работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)
- 558. Как вы делаете video summarization для RAG (вход — длинное видео, выход — краткое описание)
- 621. Как вы защищаете LLM от prompt injection через изображения (VL-модели)
- 800+ вопросов