Aivaro
  • Оглавление
  • Вопросы
  • Практика
  • Вики
  • Материалы сообщества
  • Тесты
  • Поиск
✈Telegram @ai_varo
RUEN中文
…
Оглавление/Вопросы/#908

Какие подходы к суммаризации текста вы знаете? Чем extractive отличается от abstractive? Назовите плюсы и минусы.

Краткий тезис

Суммаризация текста делится на два магистральных класса: extractive (извлечение ключевых предложений/фраз из оригинала) и abstractive (генерация нового сжатого текста, перефразирующего смысл исходника). Extractive методы (TextRank, BERTSUM) быстрее и гарантируют сохранение фактов, но дают менее связный результат. Abstractive подходы (BART, T5, Pegasus) создают естественный пересказ за счёт генерации, однако могут галлюцинировать и требуют больше ресурсов. Гибридные схемы пытаются взять лучшее от обоих миров.

2. Abstractive суммаризация: генерация сжатия

Abstractive методы генерируют новый текст, не ограничиваясь выбором из оригинала. Для этого используются seq2seq архитектуры с механизмом attention, чаще всего предобученные на огромных корпусах.

2.1 BART (Bidirectional and Auto‑Regressive Transformer)

  • Комбинация Bidirectional Encoder (как BERT) и Auto‑Regressive Decoder (как GPT).
  • Предобучение: порча текста (шум) → восстановление (denoising autoencoder).
  • Для суммаризации дообучается: encoder читает исходный текст, decoder генерирует реферат.

2.2 T5 (Text‑to‑Text Transfer Transformer)

  • Унифицирует все NLP‑задачи как text‑to‑text: вход — "summarize: {текст}", выход — реферат.
  • Encoder‑Decoder Transformer.
  • Вариации: T5‑Small, T5‑Base, T5‑Large, T5‑3B.

2.3 Pegasus

  • Предобучен специально для суммаризации: удаление важных предложений (Gap Sentence Generation) и обучение их восстанавливать.
  • Даёт высокое качество на новостях и научных статьях.

Плюсы abstractive:

  • Реферат звучит связно, как написанный человеком.
  • Может опустить несущественные детали и переформулировать ключевые идеи.
  • Лучше адаптируется к заданной длине.

Минусы:

  • Возможны галлюцинации (фактически неверные утверждения).
  • Требует больших вычислительных ресурсов (GPU, память).
  • Сложнее в тонкой настройке (нужны качественные пары «текст — реферат»).

3. Плюсы/минусы: сохранение фактов vs флюидность

КритерийExtractiveAbstractive
Сохранение фактовВысокое (все факты — из исходного текста)Риск галлюцинаций (факты могут искажаться)
Флюидность (связность)Низкая — возможны скачки между предложениямиВысокая — сгенерированный текст естественный
Скорость инференсаБыстро (ранжирование или классификация)Медленно (авторегрессивная генерация)
Необходимость данныхUnsupervised (TextRank) или слабая разметка (BERTSUM)Требуется большая размеченная пара (текст, реферат)
Контроль длиныЖёсткий (берём K предложений)Гибкий (можно задать min/max length)
ИнтерпретируемостьПрозрачность — можно указать на выбранные предложенияЧёрный ящик — сложно объяснить, откуда фраза

4. Гибридные подходы

Гибридные методы комбинируют экстракцию и абстракцию для компенсации недостатков обоих.

4.1 Extractive + Abstractive in pipeline

  1. Сначала экстрактор выделяет N ключевых предложений (например, TextRank или BERTSUM).
  2. Затем абстрактор (BART/T5) получает этот сжатый контекст и генерирует финальный реферат, перефразируя только важное.

Пример: Extract-then-abstract.

4.2 Агентная суммаризация

Использует LLM с инструментами (например, RAG) для выбора фрагментов и последующей генерации с ограничением по фактам.

Плюсы гибридов:

  • Снижение галлюцинаций за счёт фильтрации фактов экстрактором.
  • Улучшение связности за счёт абстрактора. Минусы:
  • Два последовательных вызова — latency увеличивается.
  • Сложность настройки (два компонента).

5. Пет-проект для закрепления

Задача: Реализовать гибридный классификатор суммаризации русскоязычных новостей: TextRank извлекает 5 предложений → затем дообученный BART (из RuBART) генерирует абстрактный реферат.

Инструменты:

  • Python + Transformers
  • Sumy (TextRank реализация) или написать свой
  • Датасет: Gazeta (русские новости) или подмножество NewsCatcher

Шаги:

  1. Загрузить датасет новостей с эталонными рефератами.
  2. Написать пайплайн: текст → Spacy/Razdel (токен, предложения) → TextRank (выбор 5 предложений).
  3. Взять предобученный RuBART-base (например, Rut5-sum-gazeta или IlyaGusev/rut5_base_headline_gazeta).
  4. Дообучить абстрактор на парах: выжимка 5 предложений (extractive) → полный эталонный реферат (вместо исходного текста). Это учит модель кратко переформулировать уже отфильтрованные факты.
  5. Сравнить метрики: ROUGE-1/2/L для гибрида vs чистого extractive и чистого abstractive.

Ожидаемый результат:

  • Гибрид даст значение ROUGE-L выше, чем чистый extractive (связность), и ниже галлюцинаций, чем чистый abstractive.
  • В реальном тексте будет видно: пересказ более гладкий, но не содержит вымышленных фактов.

Связь с другими вопросами

ВопросТема
909ROUGE, BLEU, METEOR, BERTScore
910Дообучение Pegasus на русских данных

Навигация

  • Предыдущий: 907
  • Следующий: 909
  • Индекс: 00. Индекс разборов