中文翻译暂不可用,显示俄语原文。
pre-tokenization
pre-tokenization
Определение
Pre-tokenization — этап разбиения текста на слова по пробелам перед основной токенизацией, необходимый для алгоритмов BPE и Unigram. SentencePiece не требует pre-tokenization, так как работает на уровне символов.
Где встречается
- 284. Как работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения
- 800+ вопросов