English translation is not available yet. Showing Russian content.
Attention dropout
Attention dropout
Определение
Метод регуляризации, при котором отдельные веса внимания зануляются после softmax для предотвращения чрезмерной концентрации модели на одном токене и улучшения обобщения.