2.1 (Bidirectional and Auto‑Regressive Transformer)

- Комбинация Bidirectional Encoder (как BERT) и Auto‑Regressive Decoder (как GPT). - Предобучение: порча текста (шум) → восстановление (denoising autoencoder). - Для суммаризации дообучается: encoder читает исходный текст, decoder генерирует реферат.

Какие подходы к суммаризации текста вы знаете? Чем extractive отличается от abstractive? Назовите плюсы и минусы.

Q: Краткий тезис

Суммаризация текста делится на два магистральных класса: **extractive** (извлечение ключевых предложений/фраз из оригинала) и **abstractive** (генерация нового сжатого текста, перефразирующего смысл исходника). Extractive методы (TextRank, BERTSUM) быстрее и гарантируют сохранение фактов, но дают менее связный результат. Abstractive подходы (BART, T5, Pegasus) создают естественный пересказ за счёт генерации, однако могут галлюцинировать и требуют больше ресурсов. Гибридные схемы пытаются взять л

Q: 2.2 T5 (Text‑to‑Text Transfer Transformer)

- Унифицирует все NLP‑задачи как text‑to‑text: вход — "summarize: {текст}", выход — реферат. - Encoder‑Decoder Transformer. - Вариации: T5‑Small, T5‑Base, T5‑Large, T5‑3B.

Q: 3. Плюсы/минусы: сохранение фактов vs флюидность

| Критерий | Extractive | Abstractive | |-----------|------------|-------------| | **Сохранение фактов** | Высокое (все факты — из исходного текста) | Риск галлюцинаций (факты могут искажаться) | | **Флюидность (связность)** | Низкая — возможны скачки между предложениями | Высокая — сгенерированный текст естественный |

Q: 4.1 Extractive + Abstractive in pipeline

1. Сначала экстрактор выделяет `N` ключевых предложений (например, TextRank или BERTSUM). 2. Затем абстрактор (BART/T5) получает этот сжатый контекст и генерирует финальный реферат, перефразируя только важное. **Пример**: [[Вики/Суммаризация по стратегии "извлеки и затем перепиши"|Extract-then-abstract]].

Q: 4.2 Агентная суммаризация

Использует LLM с инструментами (например, [[Вики/Retrieval-Augmented Generation|RAG]]) для выбора фрагментов и последующей генерации с ограничением по фактам. **Плюсы гибридов**: - Снижение галлюцинаций за счёт фильтрации фактов экстрактором. - Улучшение связности за счёт абстрактора.

Краткий тезис

Суммаризация текста делится на два магистральных класса: extractive (извлечение ключевых предложений/фраз из оригинала) и abstractive (генерация нового сжатого текста, перефразирующего смысл исходника). Extractive методы (TextRank, BERTSUM) быстрее и гарантируют сохранение фактов, но дают менее связный результат. Abstractive подходы (BART, T5, Pegasus) создают естественный пересказ за счёт генерации, однако могут галлюцинировать и требуют больше ресурсов. Гибридные схемы пытаются взять лучшее от обоих миров.

2. Abstractive суммаризация: генерация сжатия

Abstractive методы генерируют новый текст, не ограничиваясь выбором из оригинала. Для этого используются seq2seq архитектуры с механизмом attention, чаще всего предобученные на огромных корпусах.

2.1 BART (Bidirectional and Auto‑Regressive Transformer)

Комбинация Bidirectional Encoder (как BERT) и Auto‑Regressive Decoder (как GPT).
Предобучение: порча текста (шум) → восстановление (denoising autoencoder).
Для суммаризации дообучается: encoder читает исходный текст, decoder генерирует реферат.

2.2 T5 (Text‑to‑Text Transfer Transformer)

Унифицирует все NLP‑задачи как text‑to‑text: вход — "summarize: {текст}", выход — реферат.
Encoder‑Decoder Transformer.
Вариации: T5‑Small, T5‑Base, T5‑Large, T5‑3B.

2.3 Pegasus

Предобучен специально для суммаризации: удаление важных предложений (Gap Sentence Generation) и обучение их восстанавливать.
Даёт высокое качество на новостях и научных статьях.

Плюсы abstractive:

Реферат звучит связно, как написанный человеком.
Может опустить несущественные детали и переформулировать ключевые идеи.
Лучше адаптируется к заданной длине.

Минусы:

Возможны галлюцинации (фактически неверные утверждения).
Требует больших вычислительных ресурсов (GPU, память).
Сложнее в тонкой настройке (нужны качественные пары «текст — реферат»).

3. Плюсы/минусы: сохранение фактов vs флюидность

Критерий	Extractive	Abstractive
Сохранение фактов	Высокое (все факты — из исходного текста)	Риск галлюцинаций (факты могут искажаться)
Флюидность (связность)	Низкая — возможны скачки между предложениями	Высокая — сгенерированный текст естественный
Скорость инференса	Быстро (ранжирование или классификация)	Медленно (авторегрессивная генерация)
Необходимость данных	Unsupervised (TextRank) или слабая разметка (BERTSUM)	Требуется большая размеченная пара (текст, реферат)
Контроль длины	Жёсткий (берём K предложений)	Гибкий (можно задать min/max length)
Интерпретируемость	Прозрачность — можно указать на выбранные предложения	Чёрный ящик — сложно объяснить, откуда фраза

4. Гибридные подходы

Гибридные методы комбинируют экстракцию и абстракцию для компенсации недостатков обоих.

4.1 Extractive + Abstractive in pipeline

Сначала экстрактор выделяет N ключевых предложений (например, TextRank или BERTSUM).
Затем абстрактор (BART/T5) получает этот сжатый контекст и генерирует финальный реферат, перефразируя только важное.

Пример: Extract-then-abstract.

4.2 Агентная суммаризация

Использует LLM с инструментами (например, RAG) для выбора фрагментов и последующей генерации с ограничением по фактам.

Плюсы гибридов:

Снижение галлюцинаций за счёт фильтрации фактов экстрактором.
Улучшение связности за счёт абстрактора. Минусы:
Два последовательных вызова — latency увеличивается.
Сложность настройки (два компонента).

5. Пет-проект для закрепления

Задача: Реализовать гибридный классификатор суммаризации русскоязычных новостей: TextRank извлекает 5 предложений → затем дообученный BART (из RuBART) генерирует абстрактный реферат.

Инструменты:

Python + Transformers
Sumy (TextRank реализация) или написать свой
Датасет: Gazeta (русские новости) или подмножество NewsCatcher

Шаги:

Загрузить датасет новостей с эталонными рефератами.
Написать пайплайн: текст → Spacy/Razdel (токен, предложения) → TextRank (выбор 5 предложений).
Взять предобученный RuBART-base (например, Rut5-sum-gazeta или IlyaGusev/rut5_base_headline_gazeta).
Дообучить абстрактор на парах: выжимка 5 предложений (extractive) → полный эталонный реферат (вместо исходного текста). Это учит модель кратко переформулировать уже отфильтрованные факты.
Сравнить метрики: ROUGE-1/2/L для гибрида vs чистого extractive и чистого abstractive.

Ожидаемый результат:

Гибрид даст значение ROUGE-L выше, чем чистый extractive (связность), и ниже галлюцинаций, чем чистый abstractive.
В реальном тексте будет видно: пересказ более гладкий, но не содержит вымышленных фактов.

Связь с другими вопросами

Вопрос	Тема
909	ROUGE, BLEU, METEOR, BERTScore
910	Дообучение Pegasus на русских данных

Краткий тезис

2. Abstractive суммаризация: генерация сжатия

2.1 BART (Bidirectional and Auto‑Regressive Transformer)

Комбинация Bidirectional Encoder (как BERT) и Auto‑Regressive Decoder (как GPT).
Предобучение: порча текста (шум) → восстановление (denoising autoencoder).
Для суммаризации дообучается: encoder читает исходный текст, decoder генерирует реферат.

2.2 T5 (Text‑to‑Text Transfer Transformer)

Унифицирует все NLP‑задачи как text‑to‑text: вход — "summarize: {текст}", выход — реферат.
Encoder‑Decoder Transformer.
Вариации: T5‑Small, T5‑Base, T5‑Large, T5‑3B.

2.3 Pegasus

Предобучен специально для суммаризации: удаление важных предложений (Gap Sentence Generation) и обучение их восстанавливать.
Даёт высокое качество на новостях и научных статьях.

Плюсы abstractive:

Реферат звучит связно, как написанный человеком.
Может опустить несущественные детали и переформулировать ключевые идеи.
Лучше адаптируется к заданной длине.

Минусы:

Возможны галлюцинации (фактически неверные утверждения).
Требует больших вычислительных ресурсов (GPU, память).
Сложнее в тонкой настройке (нужны качественные пары «текст — реферат»).

3. Плюсы/минусы: сохранение фактов vs флюидность

Критерий	Extractive	Abstractive
Сохранение фактов	Высокое (все факты — из исходного текста)	Риск галлюцинаций (факты могут искажаться)
Флюидность (связность)	Низкая — возможны скачки между предложениями	Высокая — сгенерированный текст естественный
Скорость инференса	Быстро (ранжирование или классификация)	Медленно (авторегрессивная генерация)
Необходимость данных	Unsupervised (TextRank) или слабая разметка (BERTSUM)	Требуется большая размеченная пара (текст, реферат)
Контроль длины	Жёсткий (берём K предложений)	Гибкий (можно задать min/max length)
Интерпретируемость	Прозрачность — можно указать на выбранные предложения	Чёрный ящик — сложно объяснить, откуда фраза

4. Гибридные подходы

Гибридные методы комбинируют экстракцию и абстракцию для компенсации недостатков обоих.

4.1 Extractive + Abstractive in pipeline

Сначала экстрактор выделяет N ключевых предложений (например, TextRank или BERTSUM).
Затем абстрактор (BART/T5) получает этот сжатый контекст и генерирует финальный реферат, перефразируя только важное.

Пример: Extract-then-abstract.

4.2 Агентная суммаризация

Плюсы гибридов:

Снижение галлюцинаций за счёт фильтрации фактов экстрактором.
Улучшение связности за счёт абстрактора. Минусы:
Два последовательных вызова — latency увеличивается.
Сложность настройки (два компонента).

5. Пет-проект для закрепления

Инструменты:

Python + Transformers
Sumy (TextRank реализация) или написать свой
Датасет: Gazeta (русские новости) или подмножество NewsCatcher

Шаги:

Загрузить датасет новостей с эталонными рефератами.
Написать пайплайн: текст → Spacy/Razdel (токен, предложения) → TextRank (выбор 5 предложений).
Взять предобученный RuBART-base (например, Rut5-sum-gazeta или IlyaGusev/rut5_base_headline_gazeta).
Дообучить абстрактор на парах: выжимка 5 предложений (extractive) → полный эталонный реферат (вместо исходного текста). Это учит модель кратко переформулировать уже отфильтрованные факты.
Сравнить метрики: ROUGE-1/2/L для гибрида vs чистого extractive и чистого abstractive.

Ожидаемый результат:

Гибрид даст значение ROUGE-L выше, чем чистый extractive (связность), и ниже галлюцинаций, чем чистый abstractive.
В реальном тексте будет видно: пересказ более гладкий, но не содержит вымышленных фактов.

Связь с другими вопросами

Вопрос	Тема
909	ROUGE, BLEU, METEOR, BERTScore
910	Дообучение Pegasus на русских данных

Какие подходы к суммаризации текста вы знаете? Чем extractive отличается от abstractive? Назовите плюсы и минусы.

Краткий тезис

2. Abstractive суммаризация: генерация сжатия

2.1 BART (Bidirectional and Auto‑Regressive Transformer)

2.2 T5 (Text‑to‑Text Transfer Transformer)

2.3 Pegasus

3. Плюсы/минусы: сохранение фактов vs флюидность

4. Гибридные подходы

4.1 Extractive + Abstractive in pipeline

4.2 Агентная суммаризация

5. Пет-проект для закрепления

Связь с другими вопросами

Навигация

Какие подходы к суммаризации текста вы знаете? Чем extractive отличается от abstractive? Назовите плюсы и минусы.

Краткий тезис

2. Abstractive суммаризация: генерация сжатия

2.1 BART (Bidirectional and Auto‑Regressive Transformer)

2.2 T5 (Text‑to‑Text Transfer Transformer)

2.3 Pegasus

3. Плюсы/минусы: сохранение фактов vs флюидность

4. Гибридные подходы

4.1 Extractive + Abstractive in pipeline

4.2 Агентная суммаризация

5. Пет-проект для закрепления

Связь с другими вопросами

Навигация