Byte-level BPE
Byte-level BPE
Определение
Byte-level BPE — это вариант алгоритма Byte-Pair Encoding (BPE), в котором начальный словарь токенов состоит из всех 256 возможных байтов (0–255), а не из символов Unicode или предопределённых юниграмм. Это позволяет обрабатывать произвольный текст без потерь и не требует отдельного механизма для неизвестных токенов (OOV). В частности, в токенизаторе GPT-2 используется именно этот подход, что даёт 256 базовых «байт-токенов».