Subword tokenization

Определение

Subword tokenization (субсловная токенизация) — метод токенизации, при котором слова разбиваются на подслова (субслова), что позволяет эффективно обрабатывать редкие и неизвестные слова. Два популярных подхода — BPE (Byte-Pair Encoding) и Unigram — решают задачу, разбивая слово на известные фрагменты из словаря подслов. Это компромисс между пословной и посимвольной токенизацией, обеспечивающий компактное представление и покрытие лексики.

Где встречается

913. Как работает scikit-learn для классификации текстов (TfidfVectorizer + LogisticR)
927. BPE в токенизаторах GPT
928. SentencePiece и его отличия от BPE
929. Токенизация редких слов (OOV) с помощью BPE/Unigram

Subword tokenization

Subword tokenization

Определение

Где встречается

Навигация