Corpus

Corpus

Определение

Корпус (corpus) — это структурированная коллекция текстовых документов, используемая для лингвистических исследований и обучения моделей NLP. В контексте TF-IDF корпус необходим для вычисления обратной частоты документа (IDF), которая оценивает редкость термина во всей коллекции. Размер и репрезентативность корпуса напрямую влияют на качество извлечения признаков и обучения моделей.

Где встречается

Навигация