GPT-4V

Определение

Мультимодальная версия GPT-4 с отдельным vision encoder (ViT) и проекционным слоем в пространство LLM. Способна обрабатывать изображения, диаграммы и видео.

Где встречается

181. В чем проблема «natural language bottleneck» для LLM
362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
542. Как вы парсите сложные PDF с таблицами и графиками (не просто текст)
550. Как работает OCR для RAG Недостатки и когда его недостаточно
552. Как вы делаете image captioning для RAG (извлечение описания изображения)
555. Как работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)
558. Как вы делаете video summarization для RAG (вход — длинное видео, выход — краткое описание)
800+ вопросов

GPT-4V

GPT-4V

Определение

Где встречается

Навигация