Decoder
Decoder
Определение
Часть архитектуры трансформера, генерирующая выходную последовательность через masked self-attention и cross-attention.
Где встречается
- 540. Как работает Q-Former в BLIP-2 и зачем он нужен
- 651. Как работает attention математически Выведите формулу scaled dot-product attention.
- 672. Что такое residual connections и зачем они нужны в трансформере
- 800+ вопросов