Как LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?

Краткий тезис

LLM и модели на основе трансформеров произвели революцию в предсказании трёхмерной структуры белков. AlphaFold 3 (2024) использует diffusion-based архитектуру для прямого предсказания координат всех атомов, а ESM3 (Meta) — это SSM-языковая модель (Mamba), обученная на миллиардах белковых последовательностей. Главное отличие: AlphaFold 3 предсказывает структуру целиком (не авторегрессивно), а ESM3 генерирует и понимает последовательности, но может быть дообучена для структурных задач.


1. Введение: что такое protein folding и почему это важно

Protein folding — процесс, в котором линейная цепочка аминокислот (полипептид) сворачивается в уникальную трёхмерную структуру, определяющую функцию белка. Ошибки сворачивания приводят к болезням (например, Альцгеймер, Паркинсон). Экспериментальное определение структуры (рентгеновская кристаллография, крио-ЭМ) дорого и медленно. Поэтому задача предсказания структуры белка по его аминокислотной последовательности (protein structure prediction) — одна из ключевых в вычислительной биологии.

Долгое время лучшие методы (Rosetta, I-TASSER) использовали физические симуляции и эволюционную информацию. Прорыв произошёл с появлением глубоких нейросетей, особенно трансформеров. Сегодня две ведущие парадигмы: диффузионные модели (AlphaFold 3) и языковые модели белков (ESM3).


2. Ключевые термины

  • Аминокислотная последовательность — строка из 20 стандартных аминокислот (букв), например MVLSPADKTNVKAAWGKVGA....
  • 3D-структура — координаты (x, y, z) каждого атома в пространстве, обычно в формате PDB.
  • MSA (Sequence Sequence Alignment|Multiple Sequence Alignment) — выравнивание множества гомологичных последовательностей; даёт эволюционную информацию о том, какие позиции консервативны.
  • Pairformer — вариант трансформера, который обрабатывает пары позиций (pairwise interactions) в белке.
  • Diffusion model — модель, которая учится восстанавливать данные из шума; в AlphaFold 3 используется для генерации 3D-координат.
  • SSM (State Space Model) — альтернатива трансформеру, эффективная для длинных последовательностей; Mamba — конкретная реализация.
  • ESM (Evolutionary Scale Modeling) — семейство языковых моделей белков от Meta, обученных на миллионах последовательностей.

3. AlphaFold 3: архитектура и принцип работы

AlphaFold 3 (2024, DeepMind) — третье поколение модели, предсказывающая структуру белков, ДНК, РНК и лигандов. Основные компоненты:

3.1 Входные данные

  • Аминокислотная последовательность целевого белка.
  • MSA — выравнивание с гомологами (до 10 000 последовательностей).
  • Шаблоны (template) — известные структуры похожих белков (опционально).
  • Дополнительные молекулы (нуклеиновые кислоты, ионы) — для комплексов.

3.2 Encoder: Pairformer

Вместо стандартного трансформера AlphaFold 3 использует Pairformer — архитектуру, которая обрабатывает не только отдельные позиции (single representation), но и пары позиций (pair representation). Это позволяет моделировать взаимодействия между аминокислотами, которые находятся далеко в последовательности, но близко в пространстве.

  • Single representation — вектор для каждой аминокислоты (размерность ~384).
  • Pair representation — матрица для всех пар (размерность ~128).
  • Attention — модифицированное внимание, которое учитывает как single, так и pair информацию.

3.3 Diffusion module

После encoder'а идёт diffusion module, который предсказывает 3D-координаты всех атомов (включая водороды). Процесс:

  1. Начальная конформация — случайный шум (координаты из нормального распределения).
  2. Модель итеративно (обычно 200 шагов) денойзит координаты, используя pair representation как conditioning.
  3. На выходе — финальные 3D-координаты.

Отличие от авторегрессивных LLM: AlphaFold 3 не генерирует структуру пошагово (слева направо), а предсказывает всю структуру сразу через диффузию. Это позволяет учитывать глобальные взаимодействия.

3.4 Loss и обучение

  • FAPE (Frame Aligned Point Error) — основной loss, сравнивающий предсказанные и истинные координаты после выравнивания локальных фреймов.
  • Distogram loss — предсказание распределения расстояний между атомами.
  • PAE (Predicted Aligned Error) — дополнительная голова, оценивающая достоверность предсказания.

AlphaFold 3 обучен на ~400 000 структурах из PDB (Protein Data Bank) и достигает точности, близкой к экспериментальной (RMSD < 1 Å для многих белков).


4. ESM3: архитектура и принцип работы

ESM3 (Meta, 2024) — языковая модель белков с 98 миллиардами параметров, обученная на 2.78 миллиардах белковых последовательностей (включая метагеномные). В отличие от AlphaFold, ESM3 — это SSM (State Space Model) на базе Mamba, а не трансформер.

4.1 Почему Mamba, а не трансформер?

Трансформеры имеют квадратичную сложность по длине последовательности. Белки могут быть длиной до нескольких тысяч аминокислот, и для больших моделей это становится узким местом. Mamba (SSM) имеет линейную сложность и лучше масштабируется на длинные последовательности.

4.2 Архитектура ESM3

  • Tokenization: каждая аминокислота кодируется как токен (20 + специальные). Также используются позиционные кодировки.
  • Mamba-блоки: вместо self-attention используются State Space Models, которые поддерживают скрытое состояние и обновляются рекуррентно. Это позволяет эффективно обрабатывать последовательности любой длины.
  • Multi-modal обучение: ESM3 обучается на трёх модальностях: последовательность, структура (3D-координаты) и функция (аннотации GO). Для структуры используется специальный кодировщик (ESMFold-like), который преобразует координаты в токены.
  • Masked language modeling: модель учится предсказывать замаскированные аминокислоты, а также замаскированные структурные токены.

4.3 Возможности ESM3

  • Генерация новых белков: можно задать частичную последовательность или структурные ограничения, и модель дорисует остальное.
  • Предсказание структуры: ESM3 может предсказывать 3D-структуру, но точность ниже, чем у AlphaFold 3 (особенно для белков без гомологов).
  • Понимание функции: модель способна предсказывать функциональные аннотации (например, ферментативную активность).

5. Сравнение AlphaFold 3 и ESM3

ХарактеристикаAlphaFold 3ESM3
АрхитектураPairformer + DiffusionMamba (SSM)
Тип моделиДиффузионная (генеративная)Языковая (авторегрессивная/маскированная)
ВходПоследовательность + MSA + шаблоныПоследовательность (иногда структура)
Выход3D-координаты всех атомовТокены последовательности/структуры
Параметры~3 млрд (оценка)98 млрд
ОбучениеСупервайзное на PDBSelf-supervised на последовательностях
Точность структурыОчень высокая (SOTA)Средняя (но улучшается с размером)
Генерация белковНет (только предсказание)Да (генерация новых последовательностей)
СкоростьМедленнее (диффузия 200 шагов)Быстрее (один проход)
Использование MSAКритически важноНе требуется (но может быть добавлено)
ОткрытостьВеса не открыты (только inference API)Веса открыты (частично)

6. Отличия от традиционных LLM (GPT, LLaMA)

  • Цель: традиционные LLM генерируют текст; модели для protein folding предсказывают физическую структуру или генерируют биологические последовательности.
  • Архитектура: AlphaFold 3 использует диффузию, а не авторегрессию; ESM3 использует SSM, а не трансформер.
  • Входные данные: для protein folding критична эволюционная информация (MSA), которую LLM не используют.
  • Выход: непрерывные 3D-координаты (AlphaFold) или дискретные токены (ESM3).
  • Масштаб: ESM3 (98B) сопоставим с крупнейшими LLM, но обучен на биологических данных.

7. Применения и ограничения

Применения

  • Дизайн лекарств: предсказание структуры белков-мишеней и генерация ингибиторов.
  • Инженерия ферментов: создание новых катализаторов с заданными свойствами.
  • Понимание болезней: моделирование мутаций, ведущих к неправильному фолдингу.
  • Синтетическая биология: генерация искусственных белков с новыми функциями.

Ограничения

  • AlphaFold 3: требует MSA (не работает для белков без гомологов), медленный, не генерирует последовательности.
  • ESM3: точность структуры ниже, особенно для больших белков; требует огромных вычислительных ресурсов.
  • Обе модели: плохо предсказывают динамику (конформационные изменения) и взаимодействия с нестандартными молекулами.

8. Связь с agentic RAG и LLM

Хотя вопрос не про RAG, модели protein folding могут быть частью AI-агентов в биоинформатике. Например:

  • Агент получает запрос «найди белок, который связывается с рецептором X».
  • Агент использует RAG для поиска в базах данных (UniProt, PDB).
  • Затем вызывает AlphaFold 3 для предсказания структуры кандидатов.
  • ESM3 может генерировать варианты последовательностей для улучшения связывания.

Таким образом, LLM (как языковой интерфейс) + модели folding образуют agentic workflow для автоматизации научных открытий.


Пет-проект для закрепления

Задача: Создать пайплайн, который по аминокислотной последовательности предсказывает структуру белка с помощью AlphaFold 3 (через API) и сравнивает с результатом ESMFold (лёгкая версия ESM).

Инструменты:

  • Python, requests для AlphaFold API (или локальный ColabFold).
  • esm (библиотека Meta) для ESMFold.
  • py3Dmol для визуализации структур.
  • biopython для работы с последовательностями.

Шаги:

  1. Выберите 5 белков из PDB с известной структурой (например, 1CRN, 4PEP).
  2. Для каждого получите аминокислотную последовательность.
  3. Отправьте запрос к AlphaFold 3 (через Google Colab или официальный сервер) — получите PDB-файл.
  4. Запустите ESMFold (модель esmfold_v1) — получите PDB-файл.
  5. Вычислите RMSD между предсказаниями и истинной структурой.
  6. Визуализируйте наложения в py3Dmol.

Ожидаемый результат: Вы увидите, что AlphaFold 3 даёт меньший RMSD (особенно для белков с гомологами), а ESMFold быстрее, но менее точен. Напишите отчёт с таблицей RMSD и комментариями.


Связь с другими вопросами

ВопросТема
726Как LLM применяются в drug discovery?
728Какие архитектуры используются для molecular generation?
730Что такое AlphaFold 2 и чем отличается от AlphaFold 3?
735Как работают SSM (Mamba) в контексте длинных последовательностей?
710Как обучать LLM на научных данных?

Навигация