Как можно применить генерацию изображений в химии для предсказания наноматериалов
Автор: Дубровский Иван. Когда я со своими коллегами с направления Химия и ИИ начинал делать этот проект, в мире был в самом разгаре интерес к таким системам генерации изображений как Stable Diffusion, DALL-E и Midjourney. Именно тогда мы решили совместить модели обработки естественного языка (такие как BERT) и системы генерации изображений и применить все это в химическом домене.
В итоге мы создали прототип системы, которая может из методики синтеза какого-либо наноматериала генерировать его изображение, которое обычно получают с помощью сканирующего электронного микроскопа.
Этот кейс будет интересен даже людям никак не связанным с химией, так как я дам всю необходимую вводную информацию.
Для начала я отвечу на несколько важных вопросов, которые могут возникнуть.
Чего мы хотели достигнуть?
Мы хотели создать систему, которая позволяет взять методику синтеза наноматериала, например, из какой-нибудь научной публикации и залив текст методики в нашу систему сразу же получить изображение данного наноматериала. На практике можно написать методику и самому, а можно просто менять уже существующую, пока на изображении мы не увидим желаемый результат.
Почему же мы взялись за эту задачу?
На данный момент создание и анализ наноматериалов это долгий процесс, требующий дорогого оборудования. При этом часто возникает необходимость получить наноматериал с какими-то определенными характеристиками, который раньше никто не получал, а какого-то гарантированного способа понять как это сделать не существует.
Как сейчас создают наноматериалы с нужными свойствами?
На данный момент ученые делают десятки экспериментов, многие из которых не приводят к нужным результатам. При этом каждый раз мы должны проанализировать наш наноматериал с помощью сканирующего электронного микроскопа, что само по себе требует немало усилий.
Почему вообще создают наноматериалы с определенными свойствами?
Часто такие параметры как размер и форма наноматериала определяют более глобальные свойства, такие как токсичность, распределение в организме, оптические свойства и другие. Все эти свойства важны, если мы планируем применять наноматериал в медицине, электронике, промышленности и так далее.
Теперь перейдем к тому, чем мы занимались.
Немного о датасете
Для начала, мы решили разработать эту систему используя наш собственный датасет, полученный из более 200 экспериментов по синтезу наночастиц карбоната кальция. Не буду рассказывать подробно про синтез и анализ с помощью сканирующего электронного микроскопа, но в результате, для каждого эксперимента было получено изображение, по которому можно впоследствии увидеть форму и размер наночастиц. Вот несколько подобных изображений.
Пример изображений наночастиц из датасета
Помимо картинок у нас также была структурированная информация о синтезе, которая находилась в специальной таблице. В ней были выписаны такие параметры, как концентрации и названия различных используемых в синтезе веществ, температура, время реакции и так далее.
Таблица с данными синтезов
Предобработка данных
Далее, полученные нами экспериментальные данные необходимо было обработать.
- Источник(и):
- Войдите на сайт для отправки комментариев