Byte-level BPE

Byte-level BPE

Определение

Byte-level BPE — это вариант алгоритма Byte-Pair Encoding (BPE), в котором начальный словарь токенов состоит из всех 256 возможных байтов (0–255), а не из символов Unicode или предопределённых юниграмм. Это позволяет обрабатывать произвольный текст без потерь и не требует отдельного механизма для неизвестных токенов (OOV). В частности, в токенизаторе GPT-2 используется именно этот подход, что даёт 256 базовых «байт-токенов».

Где встречается

Навигация