BLIP
BLIP
Определение
Модель мультимодального pre-training, объединяющая vision и language. BLIP умеет генерировать подписи к изображениям и фильтровать шум в данных, являясь альтернативой CLIP.
Где встречается
- 114. Что такое Layout-Aware Chunking и как он связан с мультимодальностью
- 361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
- 555. Как работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)