English translation is not available yet. Showing Russian content.

Attention dropout

Attention dropout

Определение

Метод регуляризации, при котором отдельные веса внимания зануляются после softmax для предотвращения чрезмерной концентрации модели на одном токене и улучшения обобщения.

Где встречается

Навигация