whitespace_normalization
whitespace_normalization
Определение
Whitespace normalization — это этап предобработки текста, при котором множественные последовательные пробелы (включая табуляции и другие пробельные символы) заменяются на один пробел. Например, с помощью регулярного выражения re.sub(r' {2,}', ' ', text) удаляются лишние пробелы, что упрощает дальнейший анализ и снижает шум в данных.