Aivaro
  • Оглавление
  • Вопросы
  • Практика
  • Вики
  • Материалы сообщества
  • Тесты
  • Поиск
✈Telegram @ai_varo
RUEN中文
…
Оглавление/Вопросы/#931

Что такое Sequence-to-Sequence (Seq2Seq) модели? Чем архитектура T5 отличается от GPT?

Краткий тезис

Sequence-to-Sequence (Seq2Seq) — класс архитектур, преобразующих одну последовательность в другую через кодирование (encoder) и декодирование (decoder). T5 (Text-to-Text Transfer Transformer) реализует полный encoder-decoder, превращая все NLP-задачи в единый формат «текст → текст». GPT (Generative Pre-trained Transformer) использует только decoder и работает авторегрессивно: генерирует следующий токен, опираясь только на левый контекст. Разница в индуктивном смещении: T5 эффективнее для задач, требующих глобального понимания исходного текста (перевод, суммаризация), тогда как GPT естественнее для свободной генерации, диалогов и креативного письма.

2. T5: encoder-decoder, текст → текст

T5 (Raffel et al., 2019) — это Transformer с полной encoder-decoder-архитектурой. Ключевая идея: every NLP task is a text-to-text problem. Модель обучается на «Colossal Clean Crawled Corpus» (C4) с единым форматом: на вход подаётся текст с префиксом задачи (например, translate English to German: ...), на выход — целевой текст.

Структурные особенности T5:

  • Encoder — двунаправленный (full attention), может видеть все токены входной последовательности.
  • Decoder — авторегрессивный, но каждый шаг использует cross-attention на последнее скрытое состояние энкодера.
  • Prefix LM? Нет — T5 не маскирует будущие токены в энкодере, что даёт глобальный контекст.

T5 отлично справляется с задачами, где нужно сначала «понять» весь вход, а потом сгенерировать перевод, реферат или ответ на вопрос. На русском языке популярна русскоязычная адаптация ruT5.


3. GPT: только decoder, авторегрессивный

GPT (Radford et al., 2018) — это Transformer только с декодером. Здесь нет отдельного энкодера; модель сразу авторегрессивно предсказывает следующий токен, используя causal attention (только левый контекст). Входная последовательность не кодируется отдельно — она является началом генерации.

Отличия от T5:

  • Нет cross-attention — модель не может заново «пересмотреть» исходный текст после начала генерации.
  • Генерация ничем не ограничена — GPT умеет продолжать текст, вести диалог, писать код, но для задач типа перевода приходится давать инструкцию в начале (few-shot).
  • Маскировка будущих токенов — обучение на предсказание следующего слова (autoregressive language modeling), а не на денойзинг (как T5).

GPT‑3, GPT‑4, Claude — все это decoder-only. Они демонстрируют масштабируемость и универсальность, но уступают encoder-decoder в задачах, где нужно точное сжатие информации (например, сухая суммаризация фактов).


4. Когда T5 лучше, когда GPT

КритерийT5 (encoder-decoder)GPT (decoder-only)
Машинный перевод❗ Лучше (двунаправленный контекст)Неэффективно без few-shot
Суммаризация (извлечение ключевого содержания)❗ Лучше (глобальное понимание)Может добавить лишние детали
Ответ на вопрос по документу❗ Лучше (читает весь документ)Требует окна контекста, может упустить суть
Свободная генерация, креативный текстСклонен к шаблонности❗ Лучше (гибкость, стилизация)
Диалог / чатНет нативного dialoflow❗ Оптимален (история + реплика)
Генерация кодаЕсть T5 для кода (CodeT5)❗ Стандарт (GitHub Copilot)
Контролируемый стиль (инструкции)Требует точный префиксУмеет понимать естественные инструкции

Вывод: T5 выбирают, когда нужно извлечь и переформулировать смысл (перевод, реферат, вопрос по тексту). GPT — когда важна свобода, креативность и диалог.


N. Пет-проект для закрепления

Задача: Реализовать простой переводчик с русского на английский с помощью предобученного T5 (ruT5-small) и сравнить качество с GPT‑3.5 на трёх примерах.

Инструменты:

  • Python, Hugging Face Transformers, torch
  • Модели sberbank-ai/ruT5-small и GPT (openai API или gpt2 как decoder-only)
  • Набор тестовых предложений (3‑5 штук)

Шаги:

  1. Загрузить ruT5-small и токенизатор, написать функцию перевода с префиксом translate ru-en: .
  2. Получить переводы для каждого предложения.
  3. Отправить те же предложения GPT‑3.5 (или gpt2 с few-shot-примером) и записать результаты.
  4. Сравнить по критериям: точность порядка слов, сохранение смысла, наличие артефактов.
  5. Сделать вывод, в каком случае encoder-decoder даёт более точный перевод.

Ожидаемый результат: На коротких предложениях T5 даст синтаксически более корректный перевод (менее «вольный»), GPT может добавить творческие детали. Для формальной переписки T5 надёжнее.


Связь с другими вопросами

ВопросТема
677Чем отличается encoder-only BERT от decoder-only GPT?

Навигация

  • Предыдущий: 930
  • Следующий: 932
  • Индекс: 00. Индекс разборов