GPT-4V
GPT-4V
Определение
Мультимодальная версия GPT-4 с отдельным vision encoder (ViT) и проекционным слоем в пространство LLM. Способна обрабатывать изображения, диаграммы и видео.
Где встречается
- 181. В чем проблема «natural language bottleneck» для LLM
- 362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 542. Как вы парсите сложные PDF с таблицами и графиками (не просто текст)
- 550. Как работает OCR для RAG Недостатки и когда его недостаточно
- 552. Как вы делаете image captioning для RAG (извлечение описания изображения)
- 555. Как работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)
- 558. Как вы делаете video summarization для RAG (вход — длинное видео, выход — краткое описание)
- 800+ вопросов