English translation is not available yet. Showing Russian content.
pre-tokenization
pre-tokenization
Определение
Pre-tokenization — этап разбиения текста на слова по пробелам перед основной токенизацией, необходимый для алгоритмов BPE и Unigram. SentencePiece не требует pre-tokenization, так как работает на уровне символов.
Где встречается
- 284. Как работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения
- 800+ вопросов