Bag of Words
Bag of Words
Определение
Модель представления текстовых данных, в которой каждый документ описывается как мультимножество (мешок) входящих в него слов, без учёта их порядка, но с сохранением информации о частоте встречаемости. Каждому слову из словаря сопоставляется числовой признак — количество его вхождений в документ, что приводит к разреженному (sparse) векторному представлению фиксированной длины. Метод прост в реализации и эффективен для задач классификации текстов, но теряет семантику последовательности и контекст слов.