中文翻译暂不可用,显示俄语原文。
ViT
ViT
Определение
Архитектура нейронной сети на основе Transformer для обработки изображений. Используется в качестве vision encoder в моделях GPT-4V, BLIP-2, LayoutLMv3 и других.
Где встречается
- 116. Как вы индексируете видео-контент в RAG-системе
- 117. Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind
- 225. Как вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные
- 361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
- 365. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
- 800+ вопросов