После [[Вики/embedding-модель\|encoder]]'а идёт [[Вики/diffusion model\|diffusion module]], который предсказывает 3D-координаты всех атомов (включая водороды). Процесс: 1. Начальная конформация — случайный [[Вики/Noise\|шум]] (координаты из нормального распределения). 2. [[Вики/model\|Модель]] итеративно (обычно 200 шагов) денойзит координаты, используя [[Вики/Pair representation\|pair representation]] как [[Вики/Conditioning\|conditioning]].

Как LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?

Q: 1. Введение: что такое protein folding и почему это важно

Protein folding — процесс, в котором линейная [[Вики/chain\|цепочка]] аминокислот (полипептид) сворачивается в уникальную трёхмерную структуру, определяющую функцию белка. [[Вики/ошибки\|Ошибки]] сворачивания приводят к болезням (например, Альцгеймер, Паркинсон). Экспериментальное определение структуры (рентгеновская кристаллография, крио-ЭМ) дорого и медленно. Поэтому [[Вики/Task\|задача]] **предсказания структуры белка по его аминокислотной последовательности** (protein structure [[Вики/infere

Q: 2. Ключевые термины

- [[Вики/Amino acid sequence\|Аминокислотная последовательность]] — строка из 20 стандартных аминокислот (букв), например `MVLSPADKTNVKAAWGKVGA...`. - 3D-структура — координаты (x, y, z) каждого атома в пространстве, обычно в формате [[Вики/Pod Disruption Budgets\|PDB]]. - **MSA (Sequence Sequence Alignment|Multiple Sequence Alignment)** — выравнивание множества гомологичных последовательностей; даёт эволюционную информацию о том, какие позиции консервативны.

Q: 3.1 Входные данные

- [[Вики/Amino acid sequence\|Аминокислотная последовательность]] целевого белка. - [[Вики/Multiple Sequence Alignment\|MSA]] — [[Вики/safety alignment\|выравнивание]] с гомологами (до 10 000 последовательностей). - [[Вики/Prompt engineering\|Шаблоны]] ([[Вики/template\|template]]) — известные структуры похожих белков (опционально).

Q: 3.2 Encoder: Pairformer

Вместо стандартного трансформера [[Вики/AlphaFold 3\|AlphaFold 3]] использует [[Вики/Pairformer\|Pairformer]] — архитектуру, которая обрабатывает не только отдельные позиции ([[Вики/Single representation\|single representation]]), но и пары позиций ([[Вики/Pair representation\|pair representation]]). Это позволяет моделировать взаимодействия между аминокислотами, которые находятся далеко в последовательности, но близко в пространстве.

Q: 3.4 Loss и обучение

- **[[Вики/FAPE\|FAPE]] ([[Вики/FAPE\|Frame Aligned Point Error]])** — основной [[Вики/Loss\|loss]], сравнивающий предсказанные и истинные координаты после выравнивания локальных фреймов. - Distogram [[Вики/Loss\|loss]] — предсказание распределения расстояний между атомами. - **[[Вики/PAE\|PAE]] ([[Вики/PAE\|Predicted Aligned Error]])** — дополнительная голова, оценивающая [[Вики/Faithfulness\|достоверность]] предсказания.

Q: 4.2 Архитектура ESM3

- [[Вики/токены\|Tokenization]]: каждая аминокислота кодируется как [[Вики/token\|токен]] (20 + специальные). Также используются позиционные кодировки. - Mamba-блоки: вместо [[Вики/Attention\|self-attention]] используются **[[Вики/S4\|State Space Models]]**, которые поддерживают [[Вики/Hidden state\|скрытое состояние]] и обновляются рекуррентно. Это позволяет эффективно обрабатывать последовательности любой длины.

Q: 4.3 Возможности ESM3

- [[Вики/generation\|Генерация]] новых белков: можно задать частичную [[Вики/sequence\|последовательность]] или структурные [[Вики/constraints\|ограничения]], и [[Вики/model\|модель]] дорисует остальное. - Предсказание структуры: [[Вики/ESM3\|ESM3]] может предсказывать 3D-структуру, но [[Вики/accuracy\|точность]] ниже, чем у [[Вики/AlphaFold 3\|AlphaFold 3]] (особенно для белков без гомологов).

Краткий тезис

LLM и модели на основе трансформеров произвели революцию в предсказании трёхмерной структуры белков. AlphaFold 3 (2024) использует diffusion-based архитектуру для прямого предсказания координат всех атомов, а ESM3 (Meta) — это SSM-языковая модель (Mamba), обученная на миллиардах белковых последовательностей. Главное отличие: AlphaFold 3 предсказывает структуру целиком (не авторегрессивно), а ESM3 генерирует и понимает последовательности, но может быть дообучена для структурных задач.

1. Введение: что такое protein folding и почему это важно

Protein folding — процесс, в котором линейная цепочка аминокислот (полипептид) сворачивается в уникальную трёхмерную структуру, определяющую функцию белка. Ошибки сворачивания приводят к болезням (например, Альцгеймер, Паркинсон). Экспериментальное определение структуры (рентгеновская кристаллография, крио-ЭМ) дорого и медленно. Поэтому задача предсказания структуры белка по его аминокислотной последовательности (protein structure prediction) — одна из ключевых в вычислительной биологии.

Долгое время лучшие методы (Rosetta, I-TASSER) использовали физические симуляции и эволюционную информацию. Прорыв произошёл с появлением глубоких нейросетей, особенно трансформеров. Сегодня две ведущие парадигмы: диффузионные модели (AlphaFold 3) и языковые модели белков (ESM3).

2. Ключевые термины

Аминокислотная последовательность — строка из 20 стандартных аминокислот (букв), например MVLSPADKTNVKAAWGKVGA....
3D-структура — координаты (x, y, z) каждого атома в пространстве, обычно в формате PDB.
MSA (Sequence Sequence Alignment|Multiple Sequence Alignment) — выравнивание множества гомологичных последовательностей; даёт эволюционную информацию о том, какие позиции консервативны.
Pairformer — вариант трансформера, который обрабатывает пары позиций (pairwise interactions) в белке.
Diffusion model — модель, которая учится восстанавливать данные из шума; в AlphaFold 3 используется для генерации 3D-координат.
SSM (State Space Model) — альтернатива трансформеру, эффективная для длинных последовательностей; Mamba — конкретная реализация.
ESM (Evolutionary Scale Modeling) — семейство языковых моделей белков от Meta, обученных на миллионах последовательностей.

3. AlphaFold 3: архитектура и принцип работы

AlphaFold 3 (2024, DeepMind) — третье поколение модели, предсказывающая структуру белков, ДНК, РНК и лигандов. Основные компоненты:

3.1 Входные данные

Аминокислотная последовательность целевого белка.
MSA — выравнивание с гомологами (до 10 000 последовательностей).
Шаблоны (template) — известные структуры похожих белков (опционально).
Дополнительные молекулы (нуклеиновые кислоты, ионы) — для комплексов.

3.2 Encoder: Pairformer

Вместо стандартного трансформера AlphaFold 3 использует Pairformer — архитектуру, которая обрабатывает не только отдельные позиции (single representation), но и пары позиций (pair representation). Это позволяет моделировать взаимодействия между аминокислотами, которые находятся далеко в последовательности, но близко в пространстве.

Single representation — вектор для каждой аминокислоты (размерность ~384).
Pair representation — матрица для всех пар (размерность ~128).
Attention — модифицированное внимание, которое учитывает как single, так и pair информацию.

3.3 Diffusion module

После encoder'а идёт diffusion module, который предсказывает 3D-координаты всех атомов (включая водороды). Процесс:

Начальная конформация — случайный шум (координаты из нормального распределения).
Модель итеративно (обычно 200 шагов) денойзит координаты, используя pair representation как conditioning.
На выходе — финальные 3D-координаты.

Отличие от авторегрессивных LLM: AlphaFold 3 не генерирует структуру пошагово (слева направо), а предсказывает всю структуру сразу через диффузию. Это позволяет учитывать глобальные взаимодействия.

3.4 Loss и обучение

FAPE (Frame Aligned Point Error) — основной loss, сравнивающий предсказанные и истинные координаты после выравнивания локальных фреймов.
Distogram loss — предсказание распределения расстояний между атомами.
PAE (Predicted Aligned Error) — дополнительная голова, оценивающая достоверность предсказания.

AlphaFold 3 обучен на ~400 000 структурах из PDB (Protein Data Bank) и достигает точности, близкой к экспериментальной (RMSD < 1 Å для многих белков).

4. ESM3: архитектура и принцип работы

ESM3 (Meta, 2024) — языковая модель белков с 98 миллиардами параметров, обученная на 2.78 миллиардах белковых последовательностей (включая метагеномные). В отличие от AlphaFold, ESM3 — это SSM (State Space Model) на базе Mamba, а не трансформер.

4.1 Почему Mamba, а не трансформер?

Трансформеры имеют квадратичную сложность по длине последовательности. Белки могут быть длиной до нескольких тысяч аминокислот, и для больших моделей это становится узким местом. Mamba (SSM) имеет линейную сложность и лучше масштабируется на длинные последовательности.

4.2 Архитектура ESM3

Tokenization: каждая аминокислота кодируется как токен (20 + специальные). Также используются позиционные кодировки.
Mamba-блоки: вместо self-attention используются State Space Models, которые поддерживают скрытое состояние и обновляются рекуррентно. Это позволяет эффективно обрабатывать последовательности любой длины.
Multi-modal обучение: ESM3 обучается на трёх модальностях: последовательность, структура (3D-координаты) и функция (аннотации GO). Для структуры используется специальный кодировщик (ESMFold-like), который преобразует координаты в токены.
Masked language modeling: модель учится предсказывать замаскированные аминокислоты, а также замаскированные структурные токены.

4.3 Возможности ESM3

Генерация новых белков: можно задать частичную последовательность или структурные ограничения, и модель дорисует остальное.
Предсказание структуры: ESM3 может предсказывать 3D-структуру, но точность ниже, чем у AlphaFold 3 (особенно для белков без гомологов).
Понимание функции: модель способна предсказывать функциональные аннотации (например, ферментативную активность).

5. Сравнение AlphaFold 3 и ESM3

Характеристика	AlphaFold 3	ESM3
Архитектура	Pairformer + Diffusion	Mamba (SSM)
Тип модели	Диффузионная (генеративная)	Языковая (авторегрессивная/маскированная)
Вход	Последовательность + MSA + шаблоны	Последовательность (иногда структура)
Выход	3D-координаты всех атомов	Токены последовательности/структуры
Параметры	~3 млрд (оценка)	98 млрд
Обучение	Супервайзное на PDB	Self-supervised на последовательностях
Точность структуры	Очень высокая (SOTA)	Средняя (но улучшается с размером)
Генерация белков	Нет (только предсказание)	Да (генерация новых последовательностей)
Скорость	Медленнее (диффузия 200 шагов)	Быстрее (один проход)
Использование MSA	Критически важно	Не требуется (но может быть добавлено)
Открытость	Веса не открыты (только inference API)	Веса открыты (частично)

6. Отличия от традиционных LLM (GPT, LLaMA)

Цель: традиционные LLM генерируют текст; модели для protein folding предсказывают физическую структуру или генерируют биологические последовательности.
Архитектура: AlphaFold 3 использует диффузию, а не авторегрессию; ESM3 использует SSM, а не трансформер.
Входные данные: для protein folding критична эволюционная информация (MSA), которую LLM не используют.
Выход: непрерывные 3D-координаты (AlphaFold) или дискретные токены (ESM3).
Масштаб: ESM3 (98B) сопоставим с крупнейшими LLM, но обучен на биологических данных.

7. Применения и ограничения

Применения

Дизайн лекарств: предсказание структуры белков-мишеней и генерация ингибиторов.
Инженерия ферментов: создание новых катализаторов с заданными свойствами.
Понимание болезней: моделирование мутаций, ведущих к неправильному фолдингу.
Синтетическая биология: генерация искусственных белков с новыми функциями.

Ограничения

AlphaFold 3: требует MSA (не работает для белков без гомологов), медленный, не генерирует последовательности.
ESM3: точность структуры ниже, особенно для больших белков; требует огромных вычислительных ресурсов.
Обе модели: плохо предсказывают динамику (конформационные изменения) и взаимодействия с нестандартными молекулами.

8. Связь с agentic RAG и LLM

Хотя вопрос не про RAG, модели protein folding могут быть частью AI-агентов в биоинформатике. Например:

Агент получает запрос «найди белок, который связывается с рецептором X».
Агент использует RAG для поиска в базах данных (UniProt, PDB).
Затем вызывает AlphaFold 3 для предсказания структуры кандидатов.
ESM3 может генерировать варианты последовательностей для улучшения связывания.

Таким образом, LLM (как языковой интерфейс) + модели folding образуют agentic workflow для автоматизации научных открытий.

Пет-проект для закрепления

Задача: Создать пайплайн, который по аминокислотной последовательности предсказывает структуру белка с помощью AlphaFold 3 (через API) и сравнивает с результатом ESMFold (лёгкая версия ESM).

Инструменты:

Python, requests для AlphaFold API (или локальный ColabFold).
esm (библиотека Meta) для ESMFold.
py3Dmol для визуализации структур.
biopython для работы с последовательностями.

Шаги:

Выберите 5 белков из PDB с известной структурой (например, 1CRN, 4PEP).
Для каждого получите аминокислотную последовательность.
Отправьте запрос к AlphaFold 3 (через Google Colab или официальный сервер) — получите PDB-файл.
Запустите ESMFold (модель esmfold_v1) — получите PDB-файл.
Вычислите RMSD между предсказаниями и истинной структурой.
Визуализируйте наложения в py3Dmol.

Ожидаемый результат: Вы увидите, что AlphaFold 3 даёт меньший RMSD (особенно для белков с гомологами), а ESMFold быстрее, но менее точен. Напишите отчёт с таблицей RMSD и комментариями.

Связь с другими вопросами

Вопрос	Тема
726	Как LLM применяются в drug discovery?
728	Какие архитектуры используются для molecular generation?
730	Что такое AlphaFold 2 и чем отличается от AlphaFold 3?
735	Как работают SSM (Mamba) в контексте длинных последовательностей?
710	Как обучать LLM на научных данных?

Краткий тезис

1. Введение: что такое protein folding и почему это важно

2. Ключевые термины

Аминокислотная последовательность — строка из 20 стандартных аминокислот (букв), например MVLSPADKTNVKAAWGKVGA....
3D-структура — координаты (x, y, z) каждого атома в пространстве, обычно в формате PDB.
MSA (Sequence Sequence Alignment|Multiple Sequence Alignment) — выравнивание множества гомологичных последовательностей; даёт эволюционную информацию о том, какие позиции консервативны.
Pairformer — вариант трансформера, который обрабатывает пары позиций (pairwise interactions) в белке.
Diffusion model — модель, которая учится восстанавливать данные из шума; в AlphaFold 3 используется для генерации 3D-координат.
SSM (State Space Model) — альтернатива трансформеру, эффективная для длинных последовательностей; Mamba — конкретная реализация.
ESM (Evolutionary Scale Modeling) — семейство языковых моделей белков от Meta, обученных на миллионах последовательностей.

3. AlphaFold 3: архитектура и принцип работы

3.1 Входные данные

Аминокислотная последовательность целевого белка.
MSA — выравнивание с гомологами (до 10 000 последовательностей).
Шаблоны (template) — известные структуры похожих белков (опционально).
Дополнительные молекулы (нуклеиновые кислоты, ионы) — для комплексов.

3.2 Encoder: Pairformer

Single representation — вектор для каждой аминокислоты (размерность ~384).
Pair representation — матрица для всех пар (размерность ~128).
Attention — модифицированное внимание, которое учитывает как single, так и pair информацию.

3.3 Diffusion module

После encoder'а идёт diffusion module, который предсказывает 3D-координаты всех атомов (включая водороды). Процесс:

Начальная конформация — случайный шум (координаты из нормального распределения).
Модель итеративно (обычно 200 шагов) денойзит координаты, используя pair representation как conditioning.
На выходе — финальные 3D-координаты.

3.4 Loss и обучение

FAPE (Frame Aligned Point Error) — основной loss, сравнивающий предсказанные и истинные координаты после выравнивания локальных фреймов.
Distogram loss — предсказание распределения расстояний между атомами.
PAE (Predicted Aligned Error) — дополнительная голова, оценивающая достоверность предсказания.

4. ESM3: архитектура и принцип работы

4.1 Почему Mamba, а не трансформер?

4.2 Архитектура ESM3

Tokenization: каждая аминокислота кодируется как токен (20 + специальные). Также используются позиционные кодировки.
Mamba-блоки: вместо self-attention используются State Space Models, которые поддерживают скрытое состояние и обновляются рекуррентно. Это позволяет эффективно обрабатывать последовательности любой длины.
Multi-modal обучение: ESM3 обучается на трёх модальностях: последовательность, структура (3D-координаты) и функция (аннотации GO). Для структуры используется специальный кодировщик (ESMFold-like), который преобразует координаты в токены.
Masked language modeling: модель учится предсказывать замаскированные аминокислоты, а также замаскированные структурные токены.

4.3 Возможности ESM3

Генерация новых белков: можно задать частичную последовательность или структурные ограничения, и модель дорисует остальное.
Предсказание структуры: ESM3 может предсказывать 3D-структуру, но точность ниже, чем у AlphaFold 3 (особенно для белков без гомологов).
Понимание функции: модель способна предсказывать функциональные аннотации (например, ферментативную активность).

5. Сравнение AlphaFold 3 и ESM3

Характеристика	AlphaFold 3	ESM3
Архитектура	Pairformer + Diffusion	Mamba (SSM)
Тип модели	Диффузионная (генеративная)	Языковая (авторегрессивная/маскированная)
Вход	Последовательность + MSA + шаблоны	Последовательность (иногда структура)
Выход	3D-координаты всех атомов	Токены последовательности/структуры
Параметры	~3 млрд (оценка)	98 млрд
Обучение	Супервайзное на PDB	Self-supervised на последовательностях
Точность структуры	Очень высокая (SOTA)	Средняя (но улучшается с размером)
Генерация белков	Нет (только предсказание)	Да (генерация новых последовательностей)
Скорость	Медленнее (диффузия 200 шагов)	Быстрее (один проход)
Использование MSA	Критически важно	Не требуется (но может быть добавлено)
Открытость	Веса не открыты (только inference API)	Веса открыты (частично)

6. Отличия от традиционных LLM (GPT, LLaMA)

Цель: традиционные LLM генерируют текст; модели для protein folding предсказывают физическую структуру или генерируют биологические последовательности.
Архитектура: AlphaFold 3 использует диффузию, а не авторегрессию; ESM3 использует SSM, а не трансформер.
Входные данные: для protein folding критична эволюционная информация (MSA), которую LLM не используют.
Выход: непрерывные 3D-координаты (AlphaFold) или дискретные токены (ESM3).
Масштаб: ESM3 (98B) сопоставим с крупнейшими LLM, но обучен на биологических данных.

7. Применения и ограничения

Применения

Дизайн лекарств: предсказание структуры белков-мишеней и генерация ингибиторов.
Инженерия ферментов: создание новых катализаторов с заданными свойствами.
Понимание болезней: моделирование мутаций, ведущих к неправильному фолдингу.
Синтетическая биология: генерация искусственных белков с новыми функциями.

Ограничения

AlphaFold 3: требует MSA (не работает для белков без гомологов), медленный, не генерирует последовательности.
ESM3: точность структуры ниже, особенно для больших белков; требует огромных вычислительных ресурсов.
Обе модели: плохо предсказывают динамику (конформационные изменения) и взаимодействия с нестандартными молекулами.

8. Связь с agentic RAG и LLM

Хотя вопрос не про RAG, модели protein folding могут быть частью AI-агентов в биоинформатике. Например:

Агент получает запрос «найди белок, который связывается с рецептором X».
Агент использует RAG для поиска в базах данных (UniProt, PDB).
Затем вызывает AlphaFold 3 для предсказания структуры кандидатов.
ESM3 может генерировать варианты последовательностей для улучшения связывания.

Пет-проект для закрепления

Инструменты:

Python, requests для AlphaFold API (или локальный ColabFold).
esm (библиотека Meta) для ESMFold.
py3Dmol для визуализации структур.
biopython для работы с последовательностями.

Шаги:

Выберите 5 белков из PDB с известной структурой (например, 1CRN, 4PEP).
Для каждого получите аминокислотную последовательность.
Отправьте запрос к AlphaFold 3 (через Google Colab или официальный сервер) — получите PDB-файл.
Запустите ESMFold (модель esmfold_v1) — получите PDB-файл.
Вычислите RMSD между предсказаниями и истинной структурой.
Визуализируйте наложения в py3Dmol.

Связь с другими вопросами

Вопрос	Тема
726	Как LLM применяются в drug discovery?
728	Какие архитектуры используются для molecular generation?
730	Что такое AlphaFold 2 и чем отличается от AlphaFold 3?
735	Как работают SSM (Mamba) в контексте длинных последовательностей?
710	Как обучать LLM на научных данных?

Как LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?

Краткий тезис

1. Введение: что такое protein folding и почему это важно

2. Ключевые термины

3. AlphaFold 3: архитектура и принцип работы

3.1 Входные данные

3.2 Encoder: Pairformer

3.3 Diffusion module

3.4 Loss и обучение

4. ESM3: архитектура и принцип работы

4.1 Почему Mamba, а не трансформер?

4.2 Архитектура ESM3

4.3 Возможности ESM3

5. Сравнение AlphaFold 3 и ESM3

6. Отличия от традиционных LLM (GPT, LLaMA)

7. Применения и ограничения

Применения

Ограничения

8. Связь с agentic RAG и LLM

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Как LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?

Краткий тезис

1. Введение: что такое protein folding и почему это важно

2. Ключевые термины

3. AlphaFold 3: архитектура и принцип работы

3.1 Входные данные

3.2 Encoder: Pairformer

3.3 Diffusion module

3.4 Loss и обучение

4. ESM3: архитектура и принцип работы

4.1 Почему Mamba, а не трансформер?

4.2 Архитектура ESM3

4.3 Возможности ESM3

5. Сравнение AlphaFold 3 и ESM3

6. Отличия от традиционных LLM (GPT, LLaMA)

7. Применения и ограничения

Применения

Ограничения

8. Связь с agentic RAG и LLM

Пет-проект для закрепления

Связь с другими вопросами

Навигация