Навигация (Obsidian)

- Предыдущий: [[930. Чем механизм внимания отличается от полносвязного слоя?|930]] - Следующий: [[932. Как работает самовнимание в Transformer?|932]] - Индекс: [[00. Индекс разборов]]

Что такое Sequence-to-Sequence (Seq2Seq) модели? Чем архитектура T5 отличается от GPT?

Q: 3. GPT: только decoder, авторегрессивный

Отличия от T5: - **Нет cross-attention** — модель не может заново «пересмотреть» исходный текст после начала генерации. - **Генерация ничем не ограничена** — GPT умеет продолжать текст, вести диалог, писать код, но для задач типа перевода приходится давать инструкцию в начале (few-shot).

Q: 4. Когда T5 лучше, когда GPT

| Критерий | T5 (encoder-decoder) | GPT (decoder-only) | | -------------------------------------------------- | -------------------------------------------- | ---------------------------------------------- |

Q: N. Пет-проект для закрепления

**Инструменты**: - Python, Hugging Face Transformers, torch - Модели `sberbank-ai/ruT5-small` и GPT (`openai` API или `gpt2` как decoder-only) - Набор тестовых предложений (3‑5 штук) **Шаги**: 1. Загрузить `ruT5-small` и токенизатор, написать функцию перевода с префиксом `translate ru-en: `.

Q: Связь с другими вопросами

| Вопрос | Тема | | ------ | -------------------------------------------------------------------- | | 677 | [[Вики/Question 677\|Чем отличается encoder-only BERT от decoder-only GPT?]] | ---

Краткий тезис

Sequence-to-Sequence (Seq2Seq) — класс архитектур, преобразующих одну последовательность в другую через кодирование (encoder) и декодирование (decoder). T5 (Text-to-Text Transfer Transformer) реализует полный encoder-decoder, превращая все NLP-задачи в единый формат «текст → текст». GPT (Generative Pre-trained Transformer) использует только decoder и работает авторегрессивно: генерирует следующий токен, опираясь только на левый контекст. Разница в индуктивном смещении: T5 эффективнее для задач, требующих глобального понимания исходного текста (перевод, суммаризация), тогда как GPT естественнее для свободной генерации, диалогов и креативного письма.

2. T5: encoder-decoder, текст → текст

T5 (Raffel et al., 2019) — это Transformer с полной encoder-decoder-архитектурой. Ключевая идея: every NLP task is a text-to-text problem. Модель обучается на «Colossal Clean Crawled Corpus» (C4) с единым форматом: на вход подаётся текст с префиксом задачи (например, translate English to German: ...), на выход — целевой текст.

Структурные особенности T5:

Encoder — двунаправленный (full attention), может видеть все токены входной последовательности.
Decoder — авторегрессивный, но каждый шаг использует cross-attention на последнее скрытое состояние энкодера.
Prefix LM? Нет — T5 не маскирует будущие токены в энкодере, что даёт глобальный контекст.

T5 отлично справляется с задачами, где нужно сначала «понять» весь вход, а потом сгенерировать перевод, реферат или ответ на вопрос. На русском языке популярна русскоязычная адаптация ruT5.

3. GPT: только decoder, авторегрессивный

GPT (Radford et al., 2018) — это Transformer только с декодером. Здесь нет отдельного энкодера; модель сразу авторегрессивно предсказывает следующий токен, используя causal attention (только левый контекст). Входная последовательность не кодируется отдельно — она является началом генерации.

Отличия от T5:

Нет cross-attention — модель не может заново «пересмотреть» исходный текст после начала генерации.
Генерация ничем не ограничена — GPT умеет продолжать текст, вести диалог, писать код, но для задач типа перевода приходится давать инструкцию в начале (few-shot).
Маскировка будущих токенов — обучение на предсказание следующего слова (autoregressive language modeling), а не на денойзинг (как T5).

GPT‑3, GPT‑4, Claude — все это decoder-only. Они демонстрируют масштабируемость и универсальность, но уступают encoder-decoder в задачах, где нужно точное сжатие информации (например, сухая суммаризация фактов).

4. Когда T5 лучше, когда GPT

Критерий	T5 (encoder-decoder)	GPT (decoder-only)
Машинный перевод	❗ Лучше (двунаправленный контекст)	Неэффективно без few-shot
Суммаризация (извлечение ключевого содержания)	❗ Лучше (глобальное понимание)	Может добавить лишние детали
Ответ на вопрос по документу	❗ Лучше (читает весь документ)	Требует окна контекста, может упустить суть
Свободная генерация, креативный текст	Склонен к шаблонности	❗ Лучше (гибкость, стилизация)
Диалог / чат	Нет нативного dialoflow	❗ Оптимален (история + реплика)
Генерация кода	Есть T5 для кода (CodeT5)	❗ Стандарт (GitHub Copilot)
Контролируемый стиль (инструкции)	Требует точный префикс	Умеет понимать естественные инструкции

Вывод: T5 выбирают, когда нужно извлечь и переформулировать смысл (перевод, реферат, вопрос по тексту). GPT — когда важна свобода, креативность и диалог.

N. Пет-проект для закрепления

Задача: Реализовать простой переводчик с русского на английский с помощью предобученного T5 (ruT5-small) и сравнить качество с GPT‑3.5 на трёх примерах.

Инструменты:

Python, Hugging Face Transformers, torch
Модели sberbank-ai/ruT5-small и GPT (openai API или gpt2 как decoder-only)
Набор тестовых предложений (3‑5 штук)

Шаги:

Загрузить ruT5-small и токенизатор, написать функцию перевода с префиксом translate ru-en: .
Получить переводы для каждого предложения.
Отправить те же предложения GPT‑3.5 (или gpt2 с few-shot-примером) и записать результаты.
Сравнить по критериям: точность порядка слов, сохранение смысла, наличие артефактов.
Сделать вывод, в каком случае encoder-decoder даёт более точный перевод.

Ожидаемый результат: На коротких предложениях T5 даст синтаксически более корректный перевод (менее «вольный»), GPT может добавить творческие детали. Для формальной переписки T5 надёжнее.

Связь с другими вопросами

Вопрос	Тема
677	Чем отличается encoder-only BERT от decoder-only GPT?