trafilatura

trafilatura

Определение

Библиотека для извлечения текста из HTML-документов, предоставляющая простой API по сравнению с BeautifulSoup. Позволяет очищать веб-страницы от разметки, навигационных элементов и прочего шума, возвращая основной контент. Часто используется в пайплайнах обработки данных для RAG-систем.

Где встречается

Навигация