LLaVA

Определение

Мультимодальная модель для обработки изображений и текста, используемая в image captioning и ответах по диаграммам.