cleaning_pipeline
cleaning_pipeline
Определение
Модульная архитектура очистки текста, включающая последовательную обработку: парсинг HTML, удаление спецсимволов и фильтрацию стоп-слов с учётом языка. Применяется в production RAG-пайплайнах для предобработки сырых данных перед индексацией.