Q-Former

Q-Former

Определение

Модуль-мост между frozen vision encoder и frozen LLM в архитектуре BLIP-2. Использует learnable query tokens для извлечения визуальных признаков и передачи их в языковую модель.

Где встречается

Навигация