中文翻译暂不可用,显示俄语原文。
Как LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?
Краткий тезис
LLM и модели на основе трансформеров произвели революцию в предсказании трёхмерной структуры белков. AlphaFold 3 (2024) использует diffusion-based архитектуру для прямого предсказания координат всех атомов, а ESM3 (Meta) — это SSM-языковая модель (Mamba), обученная на миллиардах белковых последовательностей. Главное отличие: AlphaFold 3 предсказывает структуру целиком (не авторегрессивно), а ESM3 генерирует и понимает последовательности, но может быть дообучена для структурных задач.
1. Введение: что такое protein folding и почему это важно
Protein folding — процесс, в котором линейная цепочка аминокислот (полипептид) сворачивается в уникальную трёхмерную структуру, определяющую функцию белка. Ошибки сворачивания приводят к болезням (например, Альцгеймер, Паркинсон). Экспериментальное определение структуры (рентгеновская кристаллография, крио-ЭМ) дорого и медленно. Поэтому задача предсказания структуры белка по его аминокислотной последовательности (protein structure prediction) — одна из ключевых в вычислительной биологии.
Долгое время лучшие методы (Rosetta, I-TASSER) использовали физические симуляции и эволюционную информацию. Прорыв произошёл с появлением глубоких нейросетей, особенно трансформеров. Сегодня две ведущие парадигмы: диффузионные модели (AlphaFold 3) и языковые модели белков (ESM3).
2. Ключевые термины
- Аминокислотная последовательность — строка из 20 стандартных аминокислот (букв), например
MVLSPADKTNVKAAWGKVGA.... - 3D-структура — координаты (x, y, z) каждого атома в пространстве, обычно в формате PDB.
- MSA (Sequence Sequence Alignment|Multiple Sequence Alignment) — выравнивание множества гомологичных последовательностей; даёт эволюционную информацию о том, какие позиции консервативны.
- Pairformer — вариант трансформера, который обрабатывает пары позиций (pairwise interactions) в белке.
- Diffusion model — модель, которая учится восстанавливать данные из шума; в AlphaFold 3 используется для генерации 3D-координат.
- SSM (State Space Model) — альтернатива трансформеру, эффективная для длинных последовательностей; Mamba — конкретная реализация.
- ESM (Evolutionary Scale Modeling) — семейство языковых моделей белков от Meta, обученных на миллионах последовательностей.
3. AlphaFold 3: архитектура и принцип работы
AlphaFold 3 (2024, DeepMind) — третье поколение модели, предсказывающая структуру белков, ДНК, РНК и лигандов. Основные компоненты:
3.1 Входные данные
- Аминокислотная последовательность целевого белка.
- MSA — выравнивание с гомологами (до 10 000 последовательностей).
- Шаблоны (template) — известные структуры похожих белков (опционально).
- Дополнительные молекулы (нуклеиновые кислоты, ионы) — для комплексов.
3.2 Encoder: Pairformer
Вместо стандартного трансформера AlphaFold 3 использует Pairformer — архитектуру, которая обрабатывает не только отдельные позиции (single representation), но и пары позиций (pair representation). Это позволяет моделировать взаимодействия между аминокислотами, которые находятся далеко в последовательности, но близко в пространстве.
- Single representation — вектор для каждой аминокислоты (размерность ~384).
- Pair representation — матрица для всех пар (размерность ~128).
- Attention — модифицированное внимание, которое учитывает как single, так и pair информацию.
3.3 Diffusion module
После encoder'а идёт diffusion module, который предсказывает 3D-координаты всех атомов (включая водороды). Процесс:
- Начальная конформация — случайный шум (координаты из нормального распределения).
- Модель итеративно (обычно 200 шагов) денойзит координаты, используя pair representation как conditioning.
- На выходе — финальные 3D-координаты.
Отличие от авторегрессивных LLM: AlphaFold 3 не генерирует структуру пошагово (слева направо), а предсказывает всю структуру сразу через диффузию. Это позволяет учитывать глобальные взаимодействия.
3.4 Loss и обучение
- FAPE (Frame Aligned Point Error) — основной loss, сравнивающий предсказанные и истинные координаты после выравнивания локальных фреймов.
- Distogram loss — предсказание распределения расстояний между атомами.
- PAE (Predicted Aligned Error) — дополнительная голова, оценивающая достоверность предсказания.
AlphaFold 3 обучен на ~400 000 структурах из PDB (Protein Data Bank) и достигает точности, близкой к экспериментальной (RMSD < 1 Å для многих белков).
4. ESM3: архитектура и принцип работы
ESM3 (Meta, 2024) — языковая модель белков с 98 миллиардами параметров, обученная на 2.78 миллиардах белковых последовательностей (включая метагеномные). В отличие от AlphaFold, ESM3 — это SSM (State Space Model) на базе Mamba, а не трансформер.
4.1 Почему Mamba, а не трансформер?
Трансформеры имеют квадратичную сложность по длине последовательности. Белки могут быть длиной до нескольких тысяч аминокислот, и для больших моделей это становится узким местом. Mamba (SSM) имеет линейную сложность и лучше масштабируется на длинные последовательности.
4.2 Архитектура ESM3
- Tokenization: каждая аминокислота кодируется как токен (20 + специальные). Также используются позиционные кодировки.
- Mamba-блоки: вместо self-attention используются State Space Models, которые поддерживают скрытое состояние и обновляются рекуррентно. Это позволяет эффективно обрабатывать последовательности любой длины.
- Multi-modal обучение: ESM3 обучается на трёх модальностях: последовательность, структура (3D-координаты) и функция (аннотации GO). Для структуры используется специальный кодировщик (ESMFold-like), который преобразует координаты в токены.
- Masked language modeling: модель учится предсказывать замаскированные аминокислоты, а также замаскированные структурные токены.
4.3 Возможности ESM3
- Генерация новых белков: можно задать частичную последовательность или структурные ограничения, и модель дорисует остальное.
- Предсказание структуры: ESM3 может предсказывать 3D-структуру, но точность ниже, чем у AlphaFold 3 (особенно для белков без гомологов).
- Понимание функции: модель способна предсказывать функциональные аннотации (например, ферментативную активность).
5. Сравнение AlphaFold 3 и ESM3
| Характеристика | AlphaFold 3 | ESM3 |
|---|---|---|
| Архитектура | Pairformer + Diffusion | Mamba (SSM) |
| Тип модели | Диффузионная (генеративная) | Языковая (авторегрессивная/маскированная) |
| Вход | Последовательность + MSA + шаблоны | Последовательность (иногда структура) |
| Выход | 3D-координаты всех атомов | Токены последовательности/структуры |
| Параметры | ~3 млрд (оценка) | 98 млрд |
| Обучение | Супервайзное на PDB | Self-supervised на последовательностях |
| Точность структуры | Очень высокая (SOTA) | Средняя (но улучшается с размером) |
| Генерация белков | Нет (только предсказание) | Да (генерация новых последовательностей) |
| Скорость | Медленнее (диффузия 200 шагов) | Быстрее (один проход) |
| Использование MSA | Критически важно | Не требуется (но может быть добавлено) |
| Открытость | Веса не открыты (только inference API) | Веса открыты (частично) |
6. Отличия от традиционных LLM (GPT, LLaMA)
- Цель: традиционные LLM генерируют текст; модели для protein folding предсказывают физическую структуру или генерируют биологические последовательности.
- Архитектура: AlphaFold 3 использует диффузию, а не авторегрессию; ESM3 использует SSM, а не трансформер.
- Входные данные: для protein folding критична эволюционная информация (MSA), которую LLM не используют.
- Выход: непрерывные 3D-координаты (AlphaFold) или дискретные токены (ESM3).
- Масштаб: ESM3 (98B) сопоставим с крупнейшими LLM, но обучен на биологических данных.
7. Применения и ограничения
Применения
- Дизайн лекарств: предсказание структуры белков-мишеней и генерация ингибиторов.
- Инженерия ферментов: создание новых катализаторов с заданными свойствами.
- Понимание болезней: моделирование мутаций, ведущих к неправильному фолдингу.
- Синтетическая биология: генерация искусственных белков с новыми функциями.
Ограничения
- AlphaFold 3: требует MSA (не работает для белков без гомологов), медленный, не генерирует последовательности.
- ESM3: точность структуры ниже, особенно для больших белков; требует огромных вычислительных ресурсов.
- Обе модели: плохо предсказывают динамику (конформационные изменения) и взаимодействия с нестандартными молекулами.
8. Связь с agentic RAG и LLM
Хотя вопрос не про RAG, модели protein folding могут быть частью AI-агентов в биоинформатике. Например:
- Агент получает запрос «найди белок, который связывается с рецептором X».
- Агент использует RAG для поиска в базах данных (UniProt, PDB).
- Затем вызывает AlphaFold 3 для предсказания структуры кандидатов.
- ESM3 может генерировать варианты последовательностей для улучшения связывания.
Таким образом, LLM (как языковой интерфейс) + модели folding образуют agentic workflow для автоматизации научных открытий.
Пет-проект для закрепления
Задача: Создать пайплайн, который по аминокислотной последовательности предсказывает структуру белка с помощью AlphaFold 3 (через API) и сравнивает с результатом ESMFold (лёгкая версия ESM).
Инструменты:
- Python,
requestsдля AlphaFold API (или локальный ColabFold). esm(библиотека Meta) для ESMFold.py3Dmolдля визуализации структур.biopythonдля работы с последовательностями.
Шаги:
- Выберите 5 белков из PDB с известной структурой (например, 1CRN, 4PEP).
- Для каждого получите аминокислотную последовательность.
- Отправьте запрос к AlphaFold 3 (через Google Colab или официальный сервер) — получите PDB-файл.
- Запустите ESMFold (модель
esmfold_v1) — получите PDB-файл. - Вычислите RMSD между предсказаниями и истинной структурой.
- Визуализируйте наложения в
py3Dmol.
Ожидаемый результат: Вы увидите, что AlphaFold 3 даёт меньший RMSD (особенно для белков с гомологами), а ESMFold быстрее, но менее точен. Напишите отчёт с таблицей RMSD и комментариями.
Связь с другими вопросами
| Вопрос | Тема |
|---|---|
| 726 | Как LLM применяются в drug discovery? |
| 728 | Какие архитектуры используются для molecular generation? |
| 730 | Что такое AlphaFold 2 и чем отличается от AlphaFold 3? |
| 735 | Как работают SSM (Mamba) в контексте длинных последовательностей? |
| 710 | Как обучать LLM на научных данных? |
Навигация
- Предыдущий: 726
- Следующий: 728
- Индекс: 00. Индекс разборов