Attention-dropout
Attention-dropout
Определение
Attention-dropout — это техника регуляризации, применяемая к матрице внимания (attention weights) в моделях архитектуры Transformer, в частности в BERT. Она заключается в стохастическом обнулении (дропауте) части весов внимания после операции softmax, что помогает предотвратить переобучение за счёт снижения коадаптации нейронов между слоями. В BERT этот механизм реализуется через гиперпараметр attention_probs_dropout_prob.