Что такое AI for materials science (GNoME, MatterGen) и как это отличается от text LLM?

Краткий тезис

AI for materials science — это применение глубокого обучения для предсказания свойств и генерации новых материалов. Модели вроде GNoME (Google) и MatterGen (Microsoft) работают с графовыми структурами кристаллов, а не с текстом. Они используют физические принципы (например, DFT — теория функционала плотности) и обладают инвариантностью к перестановкам атомов, что принципиально отличает их от text LLM, которые обрабатывают последовательности токенов.


1. Введение: что такое AI for materials science

AI for materials science — это междисциплинарная область, где модели машинного обучения (особенно глубокие нейронные сети) применяются для:

  • предсказания свойств материалов (энергия образования, стабильность, проводимость);
  • генерации новых кристаллических структур с заданными характеристиками;
  • ускорения дорогостоящих квантово-механических расчётов (DFT).

Ключевая особенность: данные представлены в виде графов (атомы — узлы, связи — рёбра) или периодических структур, а не последовательностей токенов. Это требует специализированных архитектур, таких как графовые нейронные сети (GNN) и диффузионные модели на графах.


2. GNoME: графовая нейронная сеть для предсказания стабильности

GNoME (Graph Networks for Materials Exploration) — модель от Google DeepMind, которая предсказывает энергию образования и стабильность кристаллических структур.

2.1 Архитектура

  • Вход: состав материала (например, LiFePO4) и начальная структура (координаты атомов в элементарной ячейке).
  • Представление: граф, где узлы — атомы с признаками (заряд, радиус), рёбра — связи (расстояния, тип связи).
  • Обработка: network|Neural network|Neural Message Passing network|Neural Network (MPNN) — каждый узел обновляет своё state|скрытое состояние, агрегируя информацию от соседей.
  • Выход: скаляр — энергия образования (eV/atom). Чем ниже энергия, тем стабильнее структура.

2.2 Обучение

  • Обучается на данных Materials Project (сотни тысяч структур с DFT-расчётами).
  • Функция потерь: MAE (средняя абсолютная ошибка) между предсказанной и DFT-энергией.
  • Достигает точности ~11 meV/atom, что сравнимо с DFT.

2.3 Применение

GNoME использовалась для скрининга 2,2 млн кандидатов и предсказала 380 000 стабильных материалов, из которых 736 уже синтезированы экспериментально.


3. MatterGen: диффузионная генерация материалов

MatterGen — модель от Microsoft Research, основанная на диффузионных моделях (denoising diffusion probabilistic models). Она генерирует новые кристаллические структуры «с нуля», удовлетворяя заданным свойствам.

3.1 Принцип работы

  • Прямой процесс: постепенное зашумление координат атомов и типов элементов до гауссова шума.
  • Обратный процесс: нейронная сеть (обычно Equivariant GNN) учится восстанавливать структуру из шума, учитывая периодические граничные условия.
  • Управляемая генерация: на этапе обратного процесса добавляется conditioning (например, желаемая энергия образования, симметрия, состав).

3.2 Отличия от GNoME

ХарактеристикаGNoMEMatterGen
ЗадачаПредсказание свойствГенерация новых структур
Тип моделиGNN (регрессия)Диффузионная модель
ВыходСкаляр (энергия)Координаты + типы атомов
ConditioningНет (только входная структура)Да (свойства, симметрия)

3.3 Результаты

MatterGen генерирует структуры, 50% которых оказываются стабильными по DFT, что в 10 раз лучше предыдущих методов.


4. Ключевые отличия от text LLM

4.1 Модальность данных

  • Text LLM работают с последовательностями токенов (1D). Порядок слов важен.
  • Materials models работают с графами (2D/3D) или периодическими структурами. Атомы не имеют естественного порядка — модель должна быть инвариантна к перестановкам (permutation invariant).

4.2 Инвариантность и эквивариантность

  • Инвариантность к перестановкам: если переставить атомы в графе, предсказание энергии не должно измениться. GNN достигают этого через симметричные функции агрегации (сумма, среднее).
  • Эквивариантность к вращениям/трансляциям: при повороте всей структуры предсказанные координаты должны поворачиваться так же. MatterGen использует GNN|equivariant GNN (например, e3nn).

4.3 Физические ограничения

  • Text LLM не имеют физических ограничений — могут генерировать бессмысленные последовательности.
  • Materials models должны удовлетворять законам квантовой механики: расстояния между атомами, углы связей, периодичность. Поэтому они часто обучаются на данных DFT (теория функционала плотности), которая решает уравнение Шрёдингера приближённо.

4.4 Тип выхода

  • LLM выдают последовательность токенов (текст).
  • GNoME выдаёт скаляр (энергию).
  • MatterGen выдаёт непрерывные координаты и дискретные типы атомов — это гибридный выход (continuous + discrete).

4.5 Размер и архитектура

  • LLM: миллиарды параметров, Transformer, обучаются на триллионах токенов.
  • Materials models: обычно десятки-сотни миллионов параметров, GNN/Equivariant сети, обучаются на тысячах-миллионах структур (данных DFT гораздо меньше, чем текста).

5. Таблица сравнения GNoME, MatterGen и text LLM

ХарактеристикаGNoMEMatterGenText LLM (GPT, LLaMA)
МодальностьГраф (кристалл)Граф (кристалл)Текст (последовательность)
АрхитектураGNN (MPNN)Equivariant GNN + DiffusionTransformer (Decoder)
ОбучениеРегрессия (MAE)Denoising score matchingNext token prediction
Физические законыУчитываются через DFT-данныеУчитываются через equivarianceНе учитываются
ИнвариантностьК перестановкамК перестановкам + вращениямК порядку токенов (не инвариантна)
ВыходСкаляр (энергия)Координаты + элементыТокены
Размер~10M параметров~100M параметров1B–1T параметров
Данные~100k структур (DFT)~1M структур (DFT)Триллионы токенов
ПрименениеСкрининг материаловГенерация новых материаловТекстовые задачи

6. Роль физических симуляций (DFT) в обучении

DFT (Density Functional Theory) — квантово-механический метод расчёта электронной структуры. Он даёт «золотой стандарт» для энергии и сил, но требует часов на одну структуру. AI-модели обучаются аппроксимировать DFT, чтобы предсказывать свойства за миллисекунды.

  • GNoME напрямую регрессирует DFT-энергию.
  • MatterGen использует DFT для проверки сгенерированных структур и как часть цикла обучения (active learning).

Без DFT-данных модели не смогут предсказывать реальную стабильность — это принципиальное отличие от LLM, которые учатся на тексте без внешнего физического валидатора.


7. Применение в реальных задачах

  • Открытие новых электролитов для батарей: GNoME предсказала стабильные литий-ионные проводники.
  • Дизайн катализаторов: MatterGen генерирует структуры с заданной энергией адсорбции.
  • Ускорение синтеза: модели сужают пространство поиска, сокращая количество экспериментальных попыток.

В отличие от LLM, которые генерируют текст, materials models напрямую влияют на физический мир — их предсказания проверяются в лаборатории.


8. Ограничения и вызовы

  • Качество данных: DFT-расчёты приближённые, могут не совпадать с экспериментом.
  • Обобщение: модели плохо предсказывают материалы, сильно отличающиеся от обучающей выборки.
  • Вычислительные ресурсы: обучение MatterGen требует тысяч GPU-часов.
  • Интерпретируемость: GNN сложно интерпретировать, в отличие от attention в LLM.
  • Интеграция с LLM: гибридные подходы (например, использование LLM для планирования экспериментов) только начинают развиваться.

9. Пет-проект для закрепления

Задача: Обучить простую GNN для предсказания энергии образования кристаллов на датасете из 1000 структур.

Инструменты:

Шаги:

  1. Загрузить 1000 структур (CIF-файлы) и DFT-энергии.
  2. Преобразовать каждую структуру в граф: узлы — атомы (признаки: атомный номер, радиус), рёбра — связи (расстояние < 5 Å).
  3. Реализовать простую Message Passing Network с 3 слоями.
  4. Обучить на 800 структурах, валидировать на 200.
  5. Метрика: MAE (eV/atom).

Ожидаемый результат: модель с MAE ~0.1–0.2 eV/atom (сравнимо с грубым DFT). Можно визуализировать предсказания vs истинные значения.

Расширение: добавить equivariant слои (e3nn) для учёта вращений — улучшит точность.


10. Связь с другими вопросами

ВопросТема
100Что такое графовые нейронные сети (GNN)?
200Как работают диффузионные модели?
300Как применять LLM в научных исследованиях?
400Fine-tuning моделей на научных данных
500RAG для научной литературы
600AI-агенты для автоматизации экспериментов

11. Навигация


Навигация