Unigram (языковая модель)
Unigram (языковая модель)
Определение
Unigram (языковая модель) — это метод подсловной токенизации, основанный на вероятностной модели. Модель оценивает вероятность каждого подслова (unigram) на основе обучающего корпуса и для заданного текста выбирает токенизацию, которая максимизирует общую вероятность. Этот подход используется в SentencePiece, в частности в модели T5.