ViT

Определение

Архитектура нейронной сети на основе Transformer для обработки изображений. Используется в качестве vision encoder в моделях GPT-4V, BLIP-2, LayoutLMv3 и других.

Где встречается

116. Как вы индексируете видео-контент в RAG-системе
117. Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind
225. Как вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные
361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
365. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
800+ вопросов

ViT

ViT

Определение

Где встречается

Навигация