- BERTopic сам определяет число кластеров, но результат сильно зависит от параметров UMAP (`n_neighbors`, `min_dist`) и HDBSCAN (`min_cluster_size`, `min_samples`). - Рекомендуется подбирать `min_cluster_size` (минимальное число документов для образования кластера) в диапазоне 5–50.

- **Встроенные визуализации**: - `topic_model.visualize_topics()` – intertopic distance map (аналогично pyLDAvis). - `topic_model.visualize_barchart()` – горизонтальные столбцы для частотности слов в темах. - `topic_model.visualize_hierarchy()` – дендрограмма, показывающая иерархию тем.

Что такое Topic Modeling (LDA, BERTopic)? Как найти темы в большой коллекции текстов?

Q: 2. BERTopic: embeddings + кластеризация

1. **Получение эмбеддингов документов** – обычно через [[Вики/Sentence-BERT|Sentence-BERT]] (SBERT), реже через LLM. Каждый документ превращается в плотный вектор фиксированной размерности (например, 384 или 768). 2. **Снижение размерности** – UMAP (Uniform Manifold Approximation and Projection). Сохраняет локальную структуру данных, подготавливая к кластеризации.

Q: Общие советы

- Используйте **сложное резюме** (например, метод локтя) – график зависимости метрики от K. - Не гонитесь за минимальной perplexity – она часто даёт чрезмерно дробные темы. - Проводите **экспертную оценку**: человек смотрит топ-10 слов каждой темы и решает, осмысленна ли она. ---

Краткий тезис

Topic Modeling – это задача автоматического выделения латентных тем из неразмеченного корпуса документов. Основные подходы: вероятностная модель LDA (Latent Dirichlet Allocation), где каждый документ рассматривается как смесь тем, и современный гибридный метод BERTopic, использующий трансформерные эмбеддинги и кластеризацию. Правильный выбор числа тем и интерпретация результатов критичны для качества анализа.

2. BERTopic: embeddings + кластеризация

BERTopic – современный метод, решающий недостатки LDA. Он состоит из трёх этапов:

Получение эмбеддингов документов – обычно через Sentence-BERT (SBERT), реже через LLM. Каждый документ превращается в плотный вектор фиксированной размерности (например, 384 или 768).
Снижение размерности – UMAP (Uniform Manifold Approximation and Projection). Сохраняет локальную структуру данных, подготавливая к кластеризации.
Кластеризация – HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise). Позволяет выделять кластеры произвольной формы и классифицировать выбросы (шумы) как отдельный кластер «-1».
Формирование тем – для каждого кластера извлекаются наиболее релевантные слова на основе class-based TF-IDF (или более продвинутых вариантов, таких как MM-GPR).

Преимущества BERTopic:

Не требует фиксированного числа тем (выбирается автоматически через HDBSCAN).
Работает на коротких и длинных текстах.
Поддерживает динамические темы (анализ эволюции темы во времени).
Интеграция с LLM для автоматического именования тем.

Пример быстрого запуска BERTopic:

from bertopic import BERTopic
from sklearn.datasets import fetch_20newsgroups

docs = fetch_20newsgroups(subset='all')['data'][:1000]
topic_model = BERTopic()
topics, probs = topic_model.fit_transform(docs)
topic_model.get_topic_info().head()

3. Выбор числа тем

Выбор K (для LDA) или настройка гиперпараметров кластеризации (для BERTopic) – ключевой шаг.

Для LDA

Perplexity – мера "удивления" модели на невидимых документах. Чем меньше, тем лучше, но она часто монотонно убывает.
Topic Coherence – семантическая согласованность слов в теме. Популярные метрики: c_v (на основе скользящей окрестности), c_uci, c_npmi.
Визуализация – пирамида тем (например, через pyLDAvis).

Практический подход: перебираем K от 5 до 30, для каждого K рассчитываем когерентность и perplexity, выбираем K, где когерентность выходит на плато.

Для BERTopic

BERTopic сам определяет число кластеров, но результат сильно зависит от параметров UMAP (n_neighbors, min_dist) и HDBSCAN (min_cluster_size, min_samples).
Рекомендуется подбирать min_cluster_size (минимальное число документов для образования кластера) в диапазоне 5–50.
Для оценки качества можно использовать внутрикластерную компактность (silhouette score) и ручную валидацию.

Общие советы

Используйте сложное резюме (например, метод локтя) – график зависимости метрики от K.
Не гонитесь за минимальной perplexity – она часто даёт чрезмерно дробные темы.
Проводите экспертную оценку: человек смотрит топ-10 слов каждой темы и решает, осмысленна ли она.

4. Визуализация и интерпретация

Для понимания результатов тематического моделирования обязательна визуализация.

LDA

pyLDAvis – интерактивный 2D-график (на основе PCA/т-SNE), где круги – темы, их размер – распространённость. Удалённость кругов от центра показывает связность темы (чем ближе к краю, тем более различна тема). Клик на тему показывает топ-слова.
Word Cloud – облака слов для каждой темы.

BERTopic

Встроенные визуализации:
- topic_model.visualize_topics() – intertopic distance map (аналогично pyLDAvis).
- topic_model.visualize_barchart() – горизонтальные столбцы для частотности слов в темах.
- topic_model.visualize_hierarchy() – дендрограмма, показывающая иерархию тем.
- topic_model.visualize_heatmap() – тепловая карта схожести тем (на основе косинусной близости центроидов).
Визуализация эволюции (если есть временная метка) – topics_over_time.

Интерпретация

Важно не только получить темы, но и назвать их осмысленно. Для этого:

Просмотрите топ-10 слов каждой темы.
Соберите несколько документов с наибольшей вероятностью/близостью к теме.
Если используете BERTopic, можно передать модель LLM для автоматического генерации названий (параметр top_n_words + calculate_probabilities=True).

Пример визуализации BERTopic:

# Визуализация расстояния между темами
fig = topic_model.visualize_topics()
fig.show()

5. Пет-проект для закрепления

Задача:** Сравнить LDA и BERTopic на одном датасете новостей (например, 20 Newsgroups или русскоязычный корпус). Оценить качество тем метрикой когерентности и субъективной экспертизой.

Инструменты:

Python 3.9+, Jupyter Notebook.
Gensim (LDA)
BERTopic (+ sentence-transformers)
scikit-learn (загрузка данных, метрики)
pyLDAvis (для LDA)
matplotlib, plotly (для визуализации)

Шаги:

Загрузка и предобработка данных: токенизация, лемматизация (для русского языка используйте pymorphy2), удаление стоп-слов.
Построить BoW и обучить LDA для K=10, 15, 20.
Рассчитать когерентность (c_v) для каждого K, выбрать лучшее K.
Обучить BERTopic с параметрами по умолчанию и с min_cluster_size=10, 20, 30.
Визуализировать темы обеими моделями: pyLDAvis и встроенные графики BERTopic.
Сравнить результаты: какие темы схожи, какие различны? Какие темы лучше интерпретируются?
Записать выводы в README.md.

Ожидаемый результат:

Понимание, почему BERTopic предпочтительнее для разнородных текстов (лучше обрабатывает короткие тексты, шум, даёт более сегментированные темы).
Навык настройки гиперпараметров LDA и кластеризации BERTopic.
Готовый блокнот с визуализациями и кратким отчётом.

Связь с другими вопросами

Вопрос	Тема
947. ...	Чем Bag-of-Words отличается от word embeddings? Как они используются в NLP?
949. ...	Как применить word2vec и GloVe для семантического поиска и анализа сходства текстов?

Краткий тезис

2. BERTopic: embeddings + кластеризация

BERTopic – современный метод, решающий недостатки LDA. Он состоит из трёх этапов:

Получение эмбеддингов документов – обычно через Sentence-BERT (SBERT), реже через LLM. Каждый документ превращается в плотный вектор фиксированной размерности (например, 384 или 768).
Снижение размерности – UMAP (Uniform Manifold Approximation and Projection). Сохраняет локальную структуру данных, подготавливая к кластеризации.
Кластеризация – HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise). Позволяет выделять кластеры произвольной формы и классифицировать выбросы (шумы) как отдельный кластер «-1».
Формирование тем – для каждого кластера извлекаются наиболее релевантные слова на основе class-based TF-IDF (или более продвинутых вариантов, таких как MM-GPR).

Преимущества BERTopic:

Не требует фиксированного числа тем (выбирается автоматически через HDBSCAN).
Работает на коротких и длинных текстах.
Поддерживает динамические темы (анализ эволюции темы во времени).
Интеграция с LLM для автоматического именования тем.

Пример быстрого запуска BERTopic:

from bertopic import BERTopic
from sklearn.datasets import fetch_20newsgroups

docs = fetch_20newsgroups(subset='all')['data'][:1000]
topic_model = BERTopic()
topics, probs = topic_model.fit_transform(docs)
topic_model.get_topic_info().head()

3. Выбор числа тем

Выбор K (для LDA) или настройка гиперпараметров кластеризации (для BERTopic) – ключевой шаг.

Для LDA

Perplexity – мера "удивления" модели на невидимых документах. Чем меньше, тем лучше, но она часто монотонно убывает.
Topic Coherence – семантическая согласованность слов в теме. Популярные метрики: c_v (на основе скользящей окрестности), c_uci, c_npmi.
Визуализация – пирамида тем (например, через pyLDAvis).

Для BERTopic

BERTopic сам определяет число кластеров, но результат сильно зависит от параметров UMAP (n_neighbors, min_dist) и HDBSCAN (min_cluster_size, min_samples).
Рекомендуется подбирать min_cluster_size (минимальное число документов для образования кластера) в диапазоне 5–50.
Для оценки качества можно использовать внутрикластерную компактность (silhouette score) и ручную валидацию.

Общие советы

Используйте сложное резюме (например, метод локтя) – график зависимости метрики от K.
Не гонитесь за минимальной perplexity – она часто даёт чрезмерно дробные темы.
Проводите экспертную оценку: человек смотрит топ-10 слов каждой темы и решает, осмысленна ли она.

4. Визуализация и интерпретация

Для понимания результатов тематического моделирования обязательна визуализация.

LDA

pyLDAvis – интерактивный 2D-график (на основе PCA/т-SNE), где круги – темы, их размер – распространённость. Удалённость кругов от центра показывает связность темы (чем ближе к краю, тем более различна тема). Клик на тему показывает топ-слова.
Word Cloud – облака слов для каждой темы.

BERTopic

Встроенные визуализации:
- topic_model.visualize_topics() – intertopic distance map (аналогично pyLDAvis).
- topic_model.visualize_barchart() – горизонтальные столбцы для частотности слов в темах.
- topic_model.visualize_hierarchy() – дендрограмма, показывающая иерархию тем.
- topic_model.visualize_heatmap() – тепловая карта схожести тем (на основе косинусной близости центроидов).
Визуализация эволюции (если есть временная метка) – topics_over_time.

Интерпретация

Важно не только получить темы, но и назвать их осмысленно. Для этого:

Просмотрите топ-10 слов каждой темы.
Соберите несколько документов с наибольшей вероятностью/близостью к теме.
Если используете BERTopic, можно передать модель LLM для автоматического генерации названий (параметр top_n_words + calculate_probabilities=True).

Пример визуализации BERTopic:

# Визуализация расстояния между темами
fig = topic_model.visualize_topics()
fig.show()

5. Пет-проект для закрепления

Инструменты:

Python 3.9+, Jupyter Notebook.
Gensim (LDA)
BERTopic (+ sentence-transformers)
scikit-learn (загрузка данных, метрики)
pyLDAvis (для LDA)
matplotlib, plotly (для визуализации)

Шаги:

Загрузка и предобработка данных: токенизация, лемматизация (для русского языка используйте pymorphy2), удаление стоп-слов.
Построить BoW и обучить LDA для K=10, 15, 20.
Рассчитать когерентность (c_v) для каждого K, выбрать лучшее K.
Обучить BERTopic с параметрами по умолчанию и с min_cluster_size=10, 20, 30.
Визуализировать темы обеими моделями: pyLDAvis и встроенные графики BERTopic.
Сравнить результаты: какие темы схожи, какие различны? Какие темы лучше интерпретируются?
Записать выводы в README.md.

Ожидаемый результат:

Понимание, почему BERTopic предпочтительнее для разнородных текстов (лучше обрабатывает короткие тексты, шум, даёт более сегментированные темы).
Навык настройки гиперпараметров LDA и кластеризации BERTopic.
Готовый блокнот с визуализациями и кратким отчётом.

Связь с другими вопросами

Вопрос	Тема
947. ...	Чем Bag-of-Words отличается от word embeddings? Как они используются в NLP?
949. ...	Как применить word2vec и GloVe для семантического поиска и анализа сходства текстов?

Что такое Topic Modeling (LDA, BERTopic)? Как найти темы в большой коллекции текстов?

Краткий тезис

2. BERTopic: embeddings + кластеризация

3. Выбор числа тем

Для LDA

Для BERTopic

Общие советы

4. Визуализация и интерпретация

LDA

BERTopic

Интерпретация

5. Пет-проект для закрепления

Связь с другими вопросами

Навигация

Что такое Topic Modeling (LDA, BERTopic)? Как найти темы в большой коллекции текстов?

Краткий тезис

2. BERTopic: embeddings + кластеризация

3. Выбор числа тем

Для LDA

Для BERTopic

Общие советы

4. Визуализация и интерпретация

LDA

BERTopic

Интерпретация

5. Пет-проект для закрепления

Связь с другими вопросами

Навигация