中文翻译暂不可用,显示俄语原文。
Image patches as tokens
Image patches as tokens
Определение
Техника, при которой изображение разбивается на патчи, которые напрямую подаются как входные токены в языковую модель, минуя отдельный визионный энкодер. Используется в архитектуре Fuyu-8B.