Vocabulary

Vocabulary

Определение

Словарь (vocabulary) токенизатора — это фиксированный набор уникальных токенов (слов, подслов или символов), которые модель может распознавать и генерировать. Его размер (vocab_size) напрямую определяет количество параметров в матрице эмбеддингов и языковой голове (LM head), так как каждый токен имеет свой вектор представления и логит. Таким образом, vocab_size является ключевым гиперпараметром, влияющим на ёмкость и вычислительную сложность модели.

Где встречается

Навигация