Byte-Pair Encoding

Byte-Pair Encoding

Определение

Byte-Pair Encoding (BPE) — это алгоритм субсловной токенизации, который итеративно объединяет наиболее часто встречающиеся пары символов или байтов в новые токены. Процедура начинается с разделения текста на слова (pre-tokenization) по пробелам и знакам препинания, после чего каждое слово разбивается на отдельные символы. Затем алгоритм многократно находит самую частую пару соседних токенов и заменяет её новым токеном, пока не будет достигнут заданный размер словаря. BPE широко используется в моделях GPT и RoBERTa для эффективной обработки редких и неизвестных слов.

Где встречается

Навигация