ViT-L/14

Определение

Конкретная версия Vision Transformer с размером патча 14x14 пикселей. Применяется как vision encoder в GPT-4V и Fuyu-8B.