n-gram character

n-gram character

Определение

Символьные n-граммы (n-gram characters) — это последовательности из n символов, извлекаемые из слова с помощью скользящего окна. В NLP они используются для моделирования морфологической информации, например, в алгоритме fastText, где эмбеддинг слова строится как сумма эмбеддингов всех его символьных n-грамм (обычно n от 3 до 6). Это позволяет учитывать внутреннюю структуру слова и обобщать на редкие или незнакомые слова.

Где встречается

Навигация