text_preprocessing
text_preprocessing
Определение
Text preprocessing (предобработка текста) — это совокупность методов очистки и нормализации текстовых данных перед их дальнейшим использованием в NLP-моделях. В контексте RAG-пайплайнов включает удаление шума (HTML-теги, спецсимволы, стоп-слова), токенизацию и лемматизацию. Качество предобработки напрямую влияет на эффективность поиска и релевантность ответов.