Unigram language model
Unigram language model
Определение
Unigram language model — это вероятностная модель, в которой вероятность последовательности токенов вычисляется как произведение вероятностей каждого токена независимо от контекста. В контексте токенизации используется как метод субсловной сегментации, где выбирается наиболее вероятное разбиение текста на токены из заданного словаря. Алгоритм Unigram LM токенизации является альтернативой Byte-Pair Encoding (BPE) и WordPiece.
Где встречается
- 927. Как работает Byte-Pair Encoding (BPE) в токенизаторах GPT? Решите пример на псевдокод
- 929. Как токенизируются редкие слова (out-of-vocabulary) с помощью BPE или Unigram?