pre-tokenization

pre-tokenization

Определение

Pre-tokenization — этап разбиения текста на слова по пробелам перед основной токенизацией, необходимый для алгоритмов BPE и Unigram. SentencePiece не требует pre-tokenization, так как работает на уровне символов.

Где встречается

Навигация