Unigram language model

Unigram language model

Определение

Unigram language model — это вероятностная модель, в которой вероятность последовательности токенов вычисляется как произведение вероятностей каждого токена независимо от контекста. В контексте токенизации используется как метод субсловной сегментации, где выбирается наиболее вероятное разбиение текста на токены из заданного словаря. Алгоритм Unigram LM токенизации является альтернативой Byte-Pair Encoding (BPE) и WordPiece.

Где встречается

Навигация