Unigram (языковая модель)

Unigram (языковая модель)

Определение

Unigram (языковая модель) — это метод подсловной токенизации, основанный на вероятностной модели. Модель оценивает вероятность каждого подслова (unigram) на основе обучающего корпуса и для заданного текста выбирает токенизацию, которая максимизирует общую вероятность. Этот подход используется в SentencePiece, в частности в модели T5.

Где встречается

Навигация