Как можно применить генерацию изображений в химии для предсказания наноматериалов

Автор: Дубровский Иван. Когда я со своими коллегами с направления Химия и ИИ начинал делать этот проект, в мире был в самом разгаре интерес к таким системам генерации изображений как Stable Diffusion, DALL-E и Midjourney. Именно тогда мы решили совместить модели обработки естественного языка (такие как BERT) и системы генерации изображений и применить все это в химическом домене.

В итоге мы создали прототип системы, которая может из методики синтеза какого-либо наноматериала генерировать его изображение, которое обычно получают с помощью сканирующего электронного микроскопа.

Этот кейс будет интересен даже людям никак не связанным с химией, так как я дам всю необходимую вводную информацию.

Для начала я отвечу на несколько важных вопросов, которые могут возникнуть.

Чего мы хотели достигнуть?

Мы хотели создать систему, которая позволяет взять методику синтеза наноматериала, например, из какой-нибудь научной публикации и залив текст методики в нашу систему сразу же получить изображение данного наноматериала. На практике можно написать методику и самому, а можно просто менять уже существующую, пока на изображении мы не увидим желаемый результат.

Почему же мы взялись за эту задачу?

На данный момент создание и анализ наноматериалов это долгий процесс, требующий дорогого оборудования. При этом часто возникает необходимость получить наноматериал с какими-то определенными характеристиками, который раньше никто не получал, а какого-то гарантированного способа понять как это сделать не существует.

Как сейчас создают наноматериалы с нужными свойствами?

На данный момент ученые делают десятки экспериментов, многие из которых не приводят к нужным результатам. При этом каждый раз мы должны проанализировать наш наноматериал с помощью сканирующего электронного микроскопа, что само по себе требует немало усилий.

Почему вообще создают наноматериалы с определенными свойствами?

Часто такие параметры как размер и форма наноматериала определяют более глобальные свойства, такие как токсичность, распределение в организме, оптические свойства и другие. Все эти свойства важны, если мы планируем применять наноматериал в медицине, электронике, промышленности и так далее.

Теперь перейдем к тому, чем мы занимались.

Немного о датасете

Для начала, мы решили разработать эту систему используя наш собственный датасет, полученный из более 200 экспериментов по синтезу наночастиц карбоната кальция. Не буду рассказывать подробно про синтез и анализ с помощью сканирующего электронного микроскопа, но в результате, для каждого эксперимента было получено изображение, по которому можно впоследствии увидеть форму и размер наночастиц. Вот несколько подобных изображений.

nanomat1.pngПример изображений наночастиц из датасета

Помимо картинок у нас также была структурированная информация о синтезе, которая находилась в специальной таблице. В ней были выписаны такие параметры, как концентрации и названия различных используемых в синтезе веществ, температура, время реакции и так далее.

nanomat2.pngТаблица с данными синтезов

Предобработка данных

Далее, полученные нами экспериментальные данные необходимо было обработать.

Подробнее
Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (1 vote)
Источник(и):

Хабр