中文翻译暂不可用,显示俄语原文。

Attention dropout

Attention dropout

Определение

Метод регуляризации, при котором отдельные веса внимания зануляются после softmax для предотвращения чрезмерной концентрации модели на одном токене и улучшения обобщения.

Где встречается

Навигация