ViT-L/14
ViT-L/14
Определение
Конкретная версия Vision Transformer с размером патча 14x14 пикселей. Применяется как vision encoder в GPT-4V и Fuyu-8B.
Конкретная версия Vision Transformer с размером патча 14x14 пикселей. Применяется как vision encoder в GPT-4V и Fuyu-8B.