Unigram tokenization

Unigram tokenization

Определение

Unigram tokenization — это метод токенизации на основе языковой модели, который вероятностно сегментирует текст на подсловные единицы. В отличие от BPE, он использует контекстно-независимые вероятности для каждого токена и итеративно удаляет наименее вероятные токены из заданного словаря, что позволяет гибко подбирать размер словаря. Современные исследования (например, SentencePiece с Unigram) показывают, что оптимальный vocab_size лежит в диапазоне 30–50k для большинства языков.

Где встречается

Навигация