Как работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения?

Q: Краткий тезис

Современные токенизаторы преобразуют текст в [[Вики/sequence\|последовательность]] токенов, понятных [[Вики/LLM\|LLM]]. [[Вики/BPE\|BPE]] ([[Вики/BPE\|Byte Pair Encoding]]) итеративно сливает самые частые пары символов, [[Вики/Unigram\|Unigram]] использует вероятностную [[Вики/model\|модель]] для выбора лучшей сегментации, а [[Вики/SentencePiece\|SentencePiece]] работает напрямую с сырыми байтами, не требуя предварительной токенизации на слова. Главные [[Вики/constraints\|ограничения]] — неэффек

Q: 2. BPE (Byte Pair Encoding)

Алгоритм 1. Начать с словаря всех уникальных символов (байтов) в корпусе. 2. Подсчитать частоты всех пар соседних символов/токенов. 3. Найти самую частую пару и слить её в новый [[Вики/token usage\|токен]]. 4. Повторять шаги 2–3, пока не достигнут заданный [[Вики/vocabulary size\|размер словаря]].

Q: 3. Unigram Language Model

Идея - Каждый [[Вики/token usage\|токен]] имеет вероятность (оценивается по корпусу). - Для данного слова выбирается [[Вики/chunking\|сегментация]], максимизирующая сумму логарифмов вероятностей токенов. - [[Вики/training\|Обучение]]: итеративно удаляются [[Вики/токены\|токены]] с наименьшей вероятностью (loss-based [[Вики/duplicate detection\|pruning]]).

Q: 4.3 Сравнение tiktoken (GPT) и SentencePiece (Llama 2, 3) для русского

| Характеристика | tiktoken (GPT-4) | SentencePiece (Llama 2/3) | |----------------|------------------|----------------------------| | Алгоритм | BPE | BPE (Llama 2) или Unigram (Llama 3) | | Pre-tokenization | По пробелам и знакам препинания | Не требуется (raw bytes) | | Размер словаря | ~100k | 32k (Llama 2), 128k (Llama 3) |

Краткий тезис

Современные токенизаторы преобразуют текст в последовательность токенов, понятных LLM. BPE (Byte Pair Encoding) итеративно сливает самые частые пары символов, Unigram использует вероятностную модель для выбора лучшей сегментации, а SentencePiece работает напрямую с сырыми байтами, не требуя предварительной токенизации на слова. Главные ограничения — неэффективная обработка чисел, пробелов, редких символов и недетерминизм при декодировании, что может приводить к неожиданным ошибкам в генерации.

1. Зачем нужна токенизация?

Токенизация — это разбиение текста на минимальные единицы (токены), которые модель может обработать. LLM работают с фиксированным словарём токенов, каждый токен имеет свой embedding (векторное представление). Без токенизации модель не может понять текст.

Ранние подходы (word-level) имели огромные словари и не справлялись с незнакомыми словами (OOV) — out-of-vocabulary). Символьный уровень давал слишком длинные последовательности. Современные subword-токенизаторы находят компромисс: частые слова остаются целыми, редкие разбиваются на подслова.

2. BPE (Byte Pair Encoding)

BPE — самый популярный алгоритм, используемый в GPT, BERT, RoBERTa. Изначально разработан для сжатия данных.

Алгоритм

Начать с словаря всех уникальных символов (байтов) в корпусе.
Подсчитать частоты всех пар соседних символов/токенов.
Найти самую частую пару и слить её в новый токен.
Повторять шаги 2–3, пока не достигнут заданный размер словаря.

Пример на Python (упрощённо):

from collections import Counter
import re

def bpe(corpus, vocab_size):
    # Инициализация: словарь из символов
    vocab = set()
    for word in corpus:
        vocab.update(word)
    vocab = {ch: i for i, ch in enumerate(vocab)}
    # Разбиваем слова на символы
    words = [list(w) for w in corpus]
    while len(vocab) < vocab_size:
        # Считаем пары
        pairs = Counter()
        for word in words:
            for i in range(len(word)-1):
                pairs[(word[i], word[i+1])] += 1
        if not pairs:
            break
        # Самая частая пара
        best_pair = max(pairs, key=pairs.get)
        new_token = ''.join(best_pair)
        vocab[new_token] = len(vocab)
        # Сливаем пару во всех словах
        new_words = []
        for word in words:
            new_word = []
            i = 0
            while i < len(word):
                if i < len(word)-1 and (word[i], word[i+1]) == best_pair:
                    new_word.append(new_token)
                    i += 2
                else:
                    new_word.append(word[i])
                    i += 1
            new_words.append(new_word)
        words = new_words
    return vocab

# Пример: корпус ["low", "lower", "newest"]
corpus = ["low", "lower", "newest"]
vocab = bpe(corpus, vocab_size=20)
print(vocab)

Плюсы прост, эффективен, хорошо работает для большинства языков. Минусы не гарантирует оптимальную сегментацию, может создавать токены, которые редко встречаются.

3. Unigram Language Model

Unigram — вероятностный подход, используемый в SentencePiece (как опция) и некоторых моделях (ALBERT, XLNet). В отличие от BPE, он не сливает пары, а выбирает лучшую сегментацию на основе вероятности.

Идея

Каждый токен имеет вероятность (оценивается по корпусу).
Для данного слова выбирается сегментация, максимизирующая сумму логарифмов вероятностей токенов.
Обучение: итеративно удаляются токены с наименьшей вероятностью (loss-based pruning).

Алгоритм обучения

Начать с большого словаря (все возможные подслова из корпуса).
Вычислить вероятности токенов (MLE).
Для каждого токена оценить loss (ухудшение likelihood при его удалении).
Удалить токены с наименьшим loss (обычно 10–20% за итерацию).
Повторять, пока словарь не уменьшится до нужного размера.

Пример сегментации Слово "unhappiness" может быть разбито как ["un", "happiness"] или ["un", "happi", "ness"]. Unigram выберет вариант с наибольшей вероятностью.

Плюсы более гибкий, чем BPE, может давать более естественные разбиения. Минусы сложнее в реализации, требует больше вычислений при обучении.

4. Особенности токенизации для русского языка

Русский язык представляет особую сложность для токенизаторов из-за кириллического алфавита, богатой морфологии и отличий от английского в распределении символов.

4.1 Байты кириллицы в UTF-8

Каждый символ кириллицы в кодировке UTF-8 занимает 2 байта, в то время как символы ASCII (латиница, цифры, знаки препинания) — 1 байт. Это напрямую влияет на работу байтовых и субсловных токенизаторов:

Токенизаторы, работающие на уровне байтов (например, ByT5), будут представлять кириллические символы как последовательности из двух байтовых токенов, что увеличивает длину последовательности.
BPE и Unigram, работающие на уровне символов (Unicode code points), видят кириллицу как отдельные символы, но при слиянии пар часто объединяют частые сочетания.

4.2 BPE для русских корпусов

При обучении BPE на русскоязычных текстах типичными токенами становятся частые суффиксы и окончания:

Суффиксы: «-ние», «-ство», «-ость», «-ание»
Окончания: «-ый», «-ая», «-ое», «-ить», «-еть»
Предлоги и союзы: «и», «в», «на», «с», «по»

Это позволяет эффективно кодировать многие слова, но редкие словоформы могут разбиваться на много токенов.

4.3 Сравнение tiktoken (GPT) и SentencePiece (Llama 2, 3) для русского

Характеристика	tiktoken (GPT-4)	SentencePiece (Llama 2/3)
Алгоритм	BPE	BPE (Llama 2) или Unigram (Llama 3)
Pre-tokenization	По пробелам и знакам препинания	Не требуется (raw bytes)
Размер словаря	~100k	32k (Llama 2), 128k (Llama 3)
Обработка кириллицы	Хорошая, но много токенов на слово	Зависит от корпуса; Llama 3 с 128k словарём лучше
Пример: "привет"	2 токена: ["при", "вет"]	2-3 токена: ["▁при", "вет"] или ["▁прив", "ет"]
Пример: "здравствуйте"	4-5 токенов	3-4 токена

4.4 Практический пример

import tiktoken
import sentencepiece as spm

# tiktoken для GPT-4
enc = tiktoken.get_encoding("cl100k_base")
print(enc.encode("привет"))  # например [1152, 1234] (зависит от версии)

# SentencePiece для Llama 2 (модель нужно скачать)
sp = spm.SentencePieceProcessor(model_file="llama2.model")
print(sp.encode("привет", out_type=str))  # ['▁при', 'вет']

Как видно, слово "привет" может занимать 2-3 токена, в то время как английское "hello" — 1 токен.

4.5 Влияние на стоимость

Из-за более длинных токенов русский текст в среднем на 25–35% длиннее в токенах, чем английский при том же смысле. Это означает:

Более высокая стоимость API-запросов (оплата за токены)
Меньшее эффективное контекстное окно для русского языка
Увеличение времени генерации

Поэтому при работе с русским языком важно выбирать токенизатор с достаточным словарём и учитывать эту особенность при оценке бюджета.

5. SentencePiece

SentencePiece — библиотека от Google, которая реализует и BPE, и Unigram, но с ключевым отличием: она работает с сырыми байтами (raw bytes), а не с предварительно токенизированными словами.

Особенности

Не требует pre-tokenization (разбиения на слова по пробелам). Это важно для языков без явных разделителей (китайский, японский).
Использует Unicode нормализацию (NFKC) по умолчанию.
Может работать в режиме BPE или Unigram.
Выходные токены — это байтовые последовательности, которые могут быть декодированы обратно в текст.

Пример использования

import sentencepiece as spm

# Обучение модели на корпусе
spm.SentencePieceTrainer.train(input='corpus.txt', model_prefix='m', vocab_size=8000)

# Загрузка и токенизация
sp = spm.SentencePieceProcessor(model_file='m.model')
tokens = sp.encode('Hello world!', out_type=str)
print(tokens)  # ['▁Hello', '▁world', '!']

Символ ▁ (underscore) обозначает начало слова (пробел). SentencePiece явно кодирует пробелы как часть токенов, что позволяет восстановить исходный текст без потери информации.

Плюсы универсальность, поддержка многих языков, отсутствие зависимости от пробелов. Минусы токены могут быть длинными (байтовые последовательности), сложность отладки.

6. Сравнительная таблица

Характеристика	BPE	Unigram	SentencePiece
Принцип	Слияние частых пар	Вероятностная сегментация	BPE или Unigram на байтах
Pre-tokenization	Требуется (обычно по пробелам)	Требуется	Не требуется
Словарь	Фиксированный размер	Фиксированный размер	Фиксированный размер
Обработка OOV	Разбивает на подслова	Разбивает на подслова	Разбивает на байты
Скорость обучения	Быстро	Медленнее	Зависит от режима
Использование	GPT, BERT, RoBERTa	ALBERT, XLNet	T5, Llama, Gemma

7. Ограничения современных токенизаторов

7.1 Проблема с числами

Числа часто разбиваются на отдельные цифры (например, "123" → ["1", "2", "3"]), что теряет семантику. Модель не видит "123" как единое целое. Это может приводить к ошибкам в арифметике и понимании дат.

7.2 Пробелы и пунктуация

SentencePiece явно кодирует пробелы, но в BPE пробелы часто привязываются к предыдущему токену. Это может вызывать недетерминизм при декодировании (например, "▁Hello" vs "Hello" без пробела).

7.3 Редкие символы и Unicode

Токенизаторы могут плохо обрабатывать редкие символы (эмодзи, математические знаки, иероглифы). Они либо разбиваются на байты (увеличивая длину последовательности), либо попадают в OOV).

7.4 Недетерминизм декодирования

При декодировании (токены → текст) возможны разные варианты из-за неоднозначности границ токенов. Например, токены ["a", "bc"] и ["ab", "c"] могут дать один и тот же текст "abc". Это может приводить к невоспроизводимости.

7.5 Языковой и культурный bias

Словарь токенов формируется на основе корпуса. Если корпус содержит много английского текста, токены для других языков будут длиннее и менее эффективны. Это увеличивает стоимость инференса для носителей редких языков.

7.6 Влияние на длину контекста

Разные токенизаторы дают разную длину последовательности для одного и того же текста. Например, китайский текст может занимать в 2–3 раза больше токенов, чем английский, что сокращает эффективное контекстное окно модели.

8. Как токенизация влияет на LLM

Качество генерации: плохая токенизация (например, разбиение чисел) ухудшает способность модели к рассуждению.
Perplexity: метрика зависит от токенизатора. Сравнивать perplexity разных моделей можно только при одинаковом токенизаторе.
Стоимость: чем больше токенов, тем дороже инференс (пропорционально длине последовательности).
Fine-tuning: при дообучении важно использовать тот же токенизатор, что и при предобучении, иначе эмбеддинги будут несовместимы.

9. Современные альтернативы

Byte-level tokenization (ByT5): работает с отдельными байтами, полностью избегает OOV), но последовательности становятся длиннее.
MegaByte: использует патчи байтов для ускорения.
Мультимодальные токенизаторы (Image tokenizers для Vision-Language моделей) — отдельная область.

10. Пет-проект для закрепления

Задача Реализовать BPE с нуля и сравнить его поведение с SentencePiece на небольшом корпусе.

Инструменты Python, библиотека sentencepiece, collections.Counter.

Шаги:

Собрать корпус из 100–200 предложений на разных языках (русский, английский, китайский).
Реализовать BPE (как в разделе 2) с размером словаря 500.
Обучить SentencePiece на том же корпусе с размером словаря 500 (режим BPE).
Для 10 тестовых предложений вывести токены обоих токенизаторов.
Посчитать среднюю длину последовательности (в токенах) для каждого языка.
Проанализировать, как токенизируются числа и редкие символы.

Ожидаемый результат

Вы увидите, что SentencePiece даёт более стабильные результаты для языков без пробелов.
BPE может разбивать числа по цифрам, а SentencePiece — оставлять их целыми, если они часты в корпусе.
Вы получите практическое понимание ограничений каждого подхода.

11. Связь с другими вопросами

Вопрос	Тема
283	Как работают эмбеддинги и почему они важны для LLM?
285	Что такое контекстное окно и как оно связано с токенизацией?
286	Как устроена архитектура Transformer?
287	Что такое механизм attention и как он зависит от токенов?
288	Как обучают LLM и как токенизация влияет на loss?
289	Что такое perplexity и как её интерпретировать?

Краткий тезис

1. Зачем нужна токенизация?

2. BPE (Byte Pair Encoding)

BPE — самый популярный алгоритм, используемый в GPT, BERT, RoBERTa. Изначально разработан для сжатия данных.

Алгоритм

Начать с словаря всех уникальных символов (байтов) в корпусе.
Подсчитать частоты всех пар соседних символов/токенов.
Найти самую частую пару и слить её в новый токен.
Повторять шаги 2–3, пока не достигнут заданный размер словаря.

Пример на Python (упрощённо):

from collections import Counter
import re

def bpe(corpus, vocab_size):
    # Инициализация: словарь из символов
    vocab = set()
    for word in corpus:
        vocab.update(word)
    vocab = {ch: i for i, ch in enumerate(vocab)}
    # Разбиваем слова на символы
    words = [list(w) for w in corpus]
    while len(vocab) < vocab_size:
        # Считаем пары
        pairs = Counter()
        for word in words:
            for i in range(len(word)-1):
                pairs[(word[i], word[i+1])] += 1
        if not pairs:
            break
        # Самая частая пара
        best_pair = max(pairs, key=pairs.get)
        new_token = ''.join(best_pair)
        vocab[new_token] = len(vocab)
        # Сливаем пару во всех словах
        new_words = []
        for word in words:
            new_word = []
            i = 0
            while i < len(word):
                if i < len(word)-1 and (word[i], word[i+1]) == best_pair:
                    new_word.append(new_token)
                    i += 2
                else:
                    new_word.append(word[i])
                    i += 1
            new_words.append(new_word)
        words = new_words
    return vocab

# Пример: корпус ["low", "lower", "newest"]
corpus = ["low", "lower", "newest"]
vocab = bpe(corpus, vocab_size=20)
print(vocab)

3. Unigram Language Model

Идея

Каждый токен имеет вероятность (оценивается по корпусу).
Для данного слова выбирается сегментация, максимизирующая сумму логарифмов вероятностей токенов.
Обучение: итеративно удаляются токены с наименьшей вероятностью (loss-based pruning).

Алгоритм обучения

Начать с большого словаря (все возможные подслова из корпуса).
Вычислить вероятности токенов (MLE).
Для каждого токена оценить loss (ухудшение likelihood при его удалении).
Удалить токены с наименьшим loss (обычно 10–20% за итерацию).
Повторять, пока словарь не уменьшится до нужного размера.

4. Особенности токенизации для русского языка

4.1 Байты кириллицы в UTF-8

Токенизаторы, работающие на уровне байтов (например, ByT5), будут представлять кириллические символы как последовательности из двух байтовых токенов, что увеличивает длину последовательности.
BPE и Unigram, работающие на уровне символов (Unicode code points), видят кириллицу как отдельные символы, но при слиянии пар часто объединяют частые сочетания.

4.2 BPE для русских корпусов

При обучении BPE на русскоязычных текстах типичными токенами становятся частые суффиксы и окончания:

Суффиксы: «-ние», «-ство», «-ость», «-ание»
Окончания: «-ый», «-ая», «-ое», «-ить», «-еть»
Предлоги и союзы: «и», «в», «на», «с», «по»

Это позволяет эффективно кодировать многие слова, но редкие словоформы могут разбиваться на много токенов.

4.3 Сравнение tiktoken (GPT) и SentencePiece (Llama 2, 3) для русского

Характеристика	tiktoken (GPT-4)	SentencePiece (Llama 2/3)
Алгоритм	BPE	BPE (Llama 2) или Unigram (Llama 3)
Pre-tokenization	По пробелам и знакам препинания	Не требуется (raw bytes)
Размер словаря	~100k	32k (Llama 2), 128k (Llama 3)
Обработка кириллицы	Хорошая, но много токенов на слово	Зависит от корпуса; Llama 3 с 128k словарём лучше
Пример: "привет"	2 токена: ["при", "вет"]	2-3 токена: ["▁при", "вет"] или ["▁прив", "ет"]
Пример: "здравствуйте"	4-5 токенов	3-4 токена

4.4 Практический пример

import tiktoken
import sentencepiece as spm

# tiktoken для GPT-4
enc = tiktoken.get_encoding("cl100k_base")
print(enc.encode("привет"))  # например [1152, 1234] (зависит от версии)

# SentencePiece для Llama 2 (модель нужно скачать)
sp = spm.SentencePieceProcessor(model_file="llama2.model")
print(sp.encode("привет", out_type=str))  # ['▁при', 'вет']

Как видно, слово "привет" может занимать 2-3 токена, в то время как английское "hello" — 1 токен.

4.5 Влияние на стоимость

Более высокая стоимость API-запросов (оплата за токены)
Меньшее эффективное контекстное окно для русского языка
Увеличение времени генерации

5. SentencePiece

Особенности

Не требует pre-tokenization (разбиения на слова по пробелам). Это важно для языков без явных разделителей (китайский, японский).
Использует Unicode нормализацию (NFKC) по умолчанию.
Может работать в режиме BPE или Unigram.
Выходные токены — это байтовые последовательности, которые могут быть декодированы обратно в текст.

Пример использования

import sentencepiece as spm

# Обучение модели на корпусе
spm.SentencePieceTrainer.train(input='corpus.txt', model_prefix='m', vocab_size=8000)

# Загрузка и токенизация
sp = spm.SentencePieceProcessor(model_file='m.model')
tokens = sp.encode('Hello world!', out_type=str)
print(tokens)  # ['▁Hello', '▁world', '!']

6. Сравнительная таблица

Характеристика	BPE	Unigram	SentencePiece
Принцип	Слияние частых пар	Вероятностная сегментация	BPE или Unigram на байтах
Pre-tokenization	Требуется (обычно по пробелам)	Требуется	Не требуется
Словарь	Фиксированный размер	Фиксированный размер	Фиксированный размер
Обработка OOV	Разбивает на подслова	Разбивает на подслова	Разбивает на байты
Скорость обучения	Быстро	Медленнее	Зависит от режима
Использование	GPT, BERT, RoBERTa	ALBERT, XLNet	T5, Llama, Gemma

7. Ограничения современных токенизаторов

7.1 Проблема с числами

7.2 Пробелы и пунктуация

7.3 Редкие символы и Unicode

7.4 Недетерминизм декодирования

7.5 Языковой и культурный bias

7.6 Влияние на длину контекста

8. Как токенизация влияет на LLM

Качество генерации: плохая токенизация (например, разбиение чисел) ухудшает способность модели к рассуждению.
Perplexity: метрика зависит от токенизатора. Сравнивать perplexity разных моделей можно только при одинаковом токенизаторе.
Стоимость: чем больше токенов, тем дороже инференс (пропорционально длине последовательности).
Fine-tuning: при дообучении важно использовать тот же токенизатор, что и при предобучении, иначе эмбеддинги будут несовместимы.

9. Современные альтернативы

Byte-level tokenization (ByT5): работает с отдельными байтами, полностью избегает OOV), но последовательности становятся длиннее.
MegaByte: использует патчи байтов для ускорения.
Мультимодальные токенизаторы (Image tokenizers для Vision-Language моделей) — отдельная область.

10. Пет-проект для закрепления

Задача Реализовать BPE с нуля и сравнить его поведение с SentencePiece на небольшом корпусе.

Инструменты Python, библиотека sentencepiece, collections.Counter.

Шаги:

Собрать корпус из 100–200 предложений на разных языках (русский, английский, китайский).
Реализовать BPE (как в разделе 2) с размером словаря 500.
Обучить SentencePiece на том же корпусе с размером словаря 500 (режим BPE).
Для 10 тестовых предложений вывести токены обоих токенизаторов.
Посчитать среднюю длину последовательности (в токенах) для каждого языка.
Проанализировать, как токенизируются числа и редкие символы.

Ожидаемый результат

Вы увидите, что SentencePiece даёт более стабильные результаты для языков без пробелов.
BPE может разбивать числа по цифрам, а SentencePiece — оставлять их целыми, если они часты в корпусе.
Вы получите практическое понимание ограничений каждого подхода.

11. Связь с другими вопросами

Вопрос	Тема
283	Как работают эмбеддинги и почему они важны для LLM?
285	Что такое контекстное окно и как оно связано с токенизацией?
286	Как устроена архитектура Transformer?
287	Что такое механизм attention и как он зависит от токенов?
288	Как обучают LLM и как токенизация влияет на loss?
289	Что такое perplexity и как её интерпретировать?

Как работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения?

Краткий тезис

1. Зачем нужна токенизация?

2. BPE (Byte Pair Encoding)

3. Unigram Language Model

4. Особенности токенизации для русского языка

4.1 Байты кириллицы в UTF-8

4.2 BPE для русских корпусов

4.3 Сравнение tiktoken (GPT) и SentencePiece (Llama 2, 3) для русского

4.4 Практический пример

4.5 Влияние на стоимость

5. SentencePiece

6. Сравнительная таблица

7. Ограничения современных токенизаторов

7.1 Проблема с числами

7.2 Пробелы и пунктуация

7.3 Редкие символы и Unicode

7.4 Недетерминизм декодирования

7.5 Языковой и культурный bias

7.6 Влияние на длину контекста

8. Как токенизация влияет на LLM

9. Современные альтернативы

10. Пет-проект для закрепления

11. Связь с другими вопросами

Навигация

Как работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения?

Краткий тезис

1. Зачем нужна токенизация?

2. BPE (Byte Pair Encoding)

3. Unigram Language Model

4. Особенности токенизации для русского языка

4.1 Байты кириллицы в UTF-8

4.2 BPE для русских корпусов

4.3 Сравнение tiktoken (GPT) и SentencePiece (Llama 2, 3) для русского

4.4 Практический пример

4.5 Влияние на стоимость

5. SentencePiece

6. Сравнительная таблица

7. Ограничения современных токенизаторов

7.1 Проблема с числами

7.2 Пробелы и пунктуация

7.3 Редкие символы и Unicode

7.4 Недетерминизм декодирования

7.5 Языковой и культурный bias

7.6 Влияние на длину контекста

8. Как токенизация влияет на LLM

9. Современные альтернативы

10. Пет-проект для закрепления

11. Связь с другими вопросами

Навигация