tokenization

tokenization

Определение

Токенизация (tokenization) — процесс разбиения текста на минимальные единицы — токены (слова, подслова, символы). Это первый шаг в обработке естественного языка, необходимый для преобразования текста в формат, понятный модели. При токенизации может задаваться максимальная длина последовательности, например, 10 токенов, для упрощения или ограничения размера входа.

Где встречается

Навигация