Машинное обучение ускорит поиск мишеней для лекарств

Канадские ученые применили методы машинного обучения для восстановления 3D-формы молекул белка из двухмерных изображений, полученных криомикроскопией. Высокое разрешение, точность и быстродействие нового метода обещают существенно упростить разработку средств для лекарственной терапии широкого диапазона болезней, включая онкологические заболевания и болезнь Альцгеймера. Описание работы опубликовано в журнале Nature Methods.

Одно из направлений современной медицины — таргетированная терапия, основанная на выявлении особенностей молекулярной патологии: лекарственный препарат находит нетипичные молекулы белка, связывается с ними и изменяет их форму, меняя поведение белка в организме. Идеальный препарат может связываться только со специфическими белками, форма которых обусловлена конкретной болезнью — таким образом можно избежать побочных эффектов, которые возникают при связывании препарата с другими белками в организме. Таким образом, разработка новых лекарственных препаратов напоминает сборку пазла: не зная трехмерную форму белка, задача становится практически не разрешимой.

Одним из многообещающих подходов восстановления трехмерной структуры белков основан на использовании микроскопических двухмерных изображений, полученных методом электронной криомикроскопии (крио-ЭМ). Этот метод использует электронные микроскопы для выполнения десятков тысяч снимков замороженных образцов белка под разными углами. После того, как получены двухмерные изображения, их нужно объединить в точную 3D-модель высокого разрешения.

Structura Biotechnology Inc.

Существующие методы позволяют выполнить эту задачу за несколько дней, а то и недель, с использованием кластера мощных компьютеров; при этом для их работы требуется исходная экспертная оценка молекулы, структуру которой нужно восстановить.

Новый подход основан на применении стохастического градиентного спуска (SGD), а также алгоритмов оптимизации на базе методов максимального правдоподобия и метода ветвей и границ. Набор методов машинного обучения объединен в программу cryoSPARC (cryo-EM Single-Particle Ab initio Reconstruction and Classification), которая работает на базе графических процессоров (GPU). Программа выполняет задачу определения структуры молекулы в течение нескольких часов или даже минут, а основное новшество метода заключается в том, что метод не требует предварительных экспертных знаний о структуре молекулы белка, что позволяет получать в том числе вполне неожиданные структуры макромолекул.

Стандартные методы градиентного спуска, применяемые для приближения трехмерных моделей, чувствительны к первоначальной инициализации: произвольная начальная картинка может привести к локальному минимуму функции ошибки, далекому от искомой 3D-модели, в то время как корректная инициализация приведет к корректной модели (глобальному минимуму) — поэтому важно иметь предварительную экспертную оценку искомой структуры. При этом классический подход использует все исходные двухмерные изображения на каждом шаге, что значительно замедляет процесс. Примененный в новой работе модифицированный метод стохастического градиентного спуска на каждой итерации использует некоторое произвольным образом выбранное подмножество начальных двухмерных изображений для аппроксимации 3D-модели; при каждой итерации метод использует градиенты, рассчитанные на основе случайного набора исходных изображений, что позволяет избежать застревания в локальном минимуме и обеспечить многократное обновление восстанавливаемой модели за один проход всего исходного набора двухмерных изображений.

(a) Стандартный метод градиентного спуска. (b) Выбор подмножества исходных изображений для шага метода SGD. © Сходимость модифицированного метода SGD к глобальному оптимуму. Ali Punjani et al. / Nature Methods

Метод был протестирован на известных наборах данных для молекул рибосомы и протеасомы: полученные модели обеспечили разрешение около трех ангстремов (один ангстрем равен 10−10 метра), при этом модели были построены за два часа и 70 минут соответственно — в известных аналогах построение этих моделей занимает около 20 часов.

Методы оптимизации позволяют добиться изображений высокого разрешения. На картинке схема протеасомы, полученная за 70 минут работы программы из 49954 исходных двухмерных изображений. Ali Punjani et al. / Nature Methods

Ученые рассчитывают, что новый метод даст новаторский подход к изучению объектов структурной биологии и поможет в создании новых лекарств.

Надежда Бессонова

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (2 votes)
Источник(и):

nplus1.ru