Физики МГУ создали новую модель для ускоренной разработки лекарств

Сотрудники физического факультета МГУ создали новую модель для ускоренной разработки лекарств. Модель генерирует 90% химически валидных лекарственных соединений, способных связываться с заданным белком, используя лишь его аминокислотную последовательность в качестве входных данных. Она может существенно ускорить и упростить процесс разработки лекарств.

Работа опубликована в престижном журнале Scientific reports Nature publishing group.

Разработка лекарственных препаратов – очень дорогой и долгий процесс. Он занимает в среднем 10–13 лет, а его стоимость достигает нескольких миллиардов долларов. Разработка делится на несколько этапов. Одним из наиболее важных этапов является поиск новой молекулы, способной воздействовать на белок-мишень. Это чрезвычайно сложная задача, так как количество всех химически возможных молекул огромно и составляет, по разным оценкам, от 1023 до 1060. К настоящему моменту синтезировано только 108 молекул. Для поиска новых структур практически всегда используют компьютерные методы.

Выделяют два основных типа вычислительных методов. Первый основывается на трёхмерной структуре белка. Если известна конфигурация сайта связывания, то можно оптимизировать структуру молекулы прямо под нее. Второй тип – это методы, основанные на информации об уже известных лигандов, связывающихся с данным белком-мишенью. Можно установить связь между физико-химическими свойствами соединения и его активностью в отношении белка и использовать это знание для создания новых структур.

К сожалению, большинство существующих методов в вычислительной химии имеет тенденции к генерации сложно синтезируемых молекул. Кроме того, в основе многих методов лежат закодированные вручную правила, которые сильно ограничивают число доступных алгоритму молекул. Словом, поиск структур остается сложной задачей. В настоящее время активно исследуется возможность применения методов машинного обучения для решения задач генерации новых молекул.

«Мы использовали глубокую нейронную сеть «Трансформер». Эту архитектуру придумали исследователи из Google Brains в 2017 году для обработки естественного языка. Трансформер состоит из энкодера и декодера. Энкодер отображает входную последовательность символов в некоторый вектор. Затем декодер посимвольно генерирует на выходе последовательность, используя этот вектор. Одной из важнейших особенностей «Трансформера» являются self attention-слои. Self attention – это механизм внимания, который устанавливает связи между различными участками одной и той же последовательности и на основании этой информации строит ее представление. В нашей задаче в качестве слоев мы рассматриваем аминокислоты и отдельные символы строкового представления молекулы (SMILES)», – рассказала сотрудник кафедры биофизики физического факультета МГУ Дарья Гречишникова.

Self attention-слою требуется константное число последовательных операций для установления связей между любыми элементами последовательности, что позволяет ему справляться с длинными последовательностями. Этот механизм хорошо подходит для задачи перевода последовательности белка в строковое представление лиганда по двум причинам. Во-первых, аминокислотные последовательности белков могут быть достаточно длинными – в десятки раз длиннее строкового представления молекул. Во-вторых, функционально значимые элементы структуры белка могут быть образованы аминокислотными остатками, находящимися далеко друг от друга в последовательности. Поэтому важно, чтобы модель хорошо улавливала зависимости именно между удаленными элементами.

Мы впервые представили белок-специфичный дизайн лекарств как проблему перевода между «языком» аминокислот и строковым представлением молекулярной структуры (SMILES). Белок рассматривается как «контекст» для генерации связывающейся с ним молекулы. Такая постановка задачи позволила нам адаптировать одну из самых успешных архитектур в области машинного перевода к задачам генерации молекул. Оказалось, что аминокислотной последовательности белка достаточно для того, чтобы сгенерировать молекулы, связывающиеся с заданным белком, – продолжила Дарья Гречишникова.

Разработанная модель может существенно ускорить и упростить процесс разработки лекарств. Она позволит быстро и эффективно создавать молекулы, способные взаимодействовать с конкретным белком. Опубликованные ранее модели требуют данные об известных молекулах, связывающихся с белком, или информацию о его трехмерной структуре. Однако для новых белков-мишеней для получения такой информации необходимо привлекать дополнительные методы.

«Так, например, для новых белков, таких как вирусные белки SARS-CoV-2, вызывающие инфекционное заболевание COVID-19, данные по аффинности связывания с какими-либо соединениями отсутствовали. В таком случае, скорее всего, не удастся применить подходы, использующие дообучение модели на связывающихся с белком молекулах. Подходы, основанные на структуре белка, также могут быть не применимы, так как для некоторых белков определение трехмерной структуры затруднено или даже невозможно. Предложенная модель требует лишь знания аминокислотной последовательности белка, что значительно упрощает задачу поиска молекул», – добавила Дарья Гречишникова.

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (6 votes)
Источник(и):

Научная Россия