Unigram language model

Определение

Unigram language model — это вероятностная модель, в которой вероятность последовательности токенов вычисляется как произведение вероятностей каждого токена независимо от контекста. В контексте токенизации используется как метод субсловной сегментации, где выбирается наиболее вероятное разбиение текста на токены из заданного словаря. Алгоритм Unigram LM токенизации является альтернативой Byte-Pair Encoding (BPE) и WordPiece.

Где встречается

927. Как работает Byte-Pair Encoding (BPE) в токенизаторах GPT? Решите пример на псевдокод
929. Как токенизируются редкие слова (out-of-vocabulary) с помощью BPE или Unigram?

Unigram language model

Unigram language model

Определение

Где встречается

Навигация