Взламываем код биологических молекулярных ключей

Автор оригинала: John Pavlus. Первод: Вячеслав Голованов. Нейросети обучили быстро считывать информацию о поверхности белков – молекул, критически важных для многих биологических процессов. Эта технология уже используется для создания защиты от вируса, ответственного за COVID-19.

У специалиста по вычислительной биологии Бруно Коррейа в лаборатории было правило: никакого машинного обучения (МО). Он не считал эту дисциплину строгой наукой. Но недавно Коррейа использовал её для поиска потенциальных способов взаимодействия белков – сложных свёрнутых молекул, отвечающих за многие биологические процессы – и получил результат в 40 000 раз быстрее обычных методов. На обложке журнала Nature Methods за февраль 2020 красуется его система.

О своём нежелании принимать МО Коррейа говорит: «Я ошибался, и рад, что ошибался».

Что заставило его передумать? Геометрическое глубокое обучение (ГО) – новая область ИИ, способная находить закономерности у искривлённых поверхностей.

Белки взаимодействуют, пристраивая свои бугристые поверхности неправильной формы друг к другу как части трёхмерной головоломки. Исследователи десятилетиями пытались понять, как они это делают. Хорошо известная задача фолдинга белков, с которой учёные борются с середины XX века, пытаются понять взаимодействие белков через расшифровку связи между составляющими белок аминокислотами и его итоговой трёхмерной формой. В 1999 году IBM начала разработку новой линейки суперкомпьютеров Blue Gene специально для работы над этой задачей. Через 20 лет к ней применила новейшие алгоритмы МО DeepMind.

Система Коррейи называется MaSIF (molecular surface interaction fingerprinting – выявление характерных признаков взаимодействия молекулярных поверхностей). Она избегает присущей трёхмерному белку сложности, игнорируя внутреннюю структуру молекул. Вместо этого система сканирует двумерную поверхность белка в поисках характерных признаков взаимодействия – распознанных нейросетью признаков того, что в определённом месте к молекуле может присоединиться другой белок.

«Идея в том, что при встрече две любые молекулы, по сути, представляют друг другу эту поверхность. Поэтому большего для изучения и не требуется, — сказал Мохаммед Аль-Кьюрайши, исследователь белков в Гарвардской медицинской школе, также использующий ГО. – Это очень инновационный подход».

Программная платформа MaSIF, концентрирующаяся на предсказании взаимодействий белков на основе их поверхностей, может помочь ускорить т.н. синтез белков de novo, пытающийся синтезировать полезные белки с нуля, не полагаясь на варианты, встречающиеся в природе. Однако её можно также использовать и для базовой биологии, сказал Майкл Бронштейн, эксперт по геометрическому ГО из Имперского колледжа Лондона, помогавший разрабатывать систему.

«Как рак влияет на свойства белков? – сказал он. – Можно спросить – не уничтожают ли возникающие в результате рака мутации что-либо в белке, из-за чего он начинает вести себя по-другому, и не соединяется с тем, с чем надо. MaSIF, возможно, ответит на такие фундаментальные вопросы».

Неглубокий подход

Если вам интересно, как ГО может создавать портреты характерных особенностей белков, Бронштейн предлагает посмотреть на цифровые камеры начала 2000-х. Их алгоритмы распознавания лиц работали очень просто.

«Нужно было лишь определить наличие лица – глаз, носа, рта – вне зависимости от того, длинный нос или короткий», — пояснял он.

Современные камеры более разносторонние. Они могут распознать определённого человека, позволяя вам быстро отфильтровать библиотеку фотографий и найти все фотографии с ним.

Эти преимущества появились благодаря глубоким нейросетям, давшим компьютерам возможность находить едва различимые признаки во внешности индивида на основании обучающих данных. В этом процессе множество фотографий определённого лица, размеченных соответствующим образом, скармливается нейросети. Компьютеру не нужно заранее объяснять, какие признаки лица – зелёные глаза, широко разнесённые брови, черные волосы – каким-то образом складываются в лицо конкретное человека. При наличии достаточного количества размеченных примеров нейросеть сама обучается различать все эти признаки.

MaSIF делает то же самое для белков. Предыдущие подходы к поиску характерных признаков взаимодействия были похожи на простейшие алгоритмы распознавания лиц. Исследователи должны были определять конкретные геометрические формы заранее – допустим, бугристый участок на поверхности белка определённой формы и размера – и потом искать совпадения. MaSIF наоборот, начинает с набора базовых поверхностных структур, связанных с взаимодействием белков. К примеру, физической кривизны поверхности (выпуклости или вогнутости), электрического заряда, притяжение или отталкивание воды. Затем во время обучения нейросеть обучается тому, как нужно комбинировать эти признаки в характерные особенности, распознающие разные закономерности более высокого порядка.

До недавнего времени подобное МО нельзя было использовать на искривлённых поверхностях белков неправильной формы. Появление геометрического ГО открыло эоту возможность. Коррейа ставит в заслугу Бронштейну то, что тот продемонстрировал этот метод во время их двухнедельной совместной работы дома у Бронштейна в феврале 2018 года.

«Это всё он, — сказал Коррейа, работающий в Федеральной политехнической школе Лозанны. – Наши описания, сделанные вручную, никакого результата не давали».

Один вариант системы, MaSIF-site, может изучать целые поверхности белка и предсказывать, где с наибольшей вероятностью к нему присоединится другой белок – как бы рисует мишень на искривлённом холсте.

«Нам нравится называть это задачей одного тела, — сказал Коррейа. – Можете представить это себе как способ понять, где на определённом белке расположены функциональные места».

MaSIF-site справляется с этой задачей на 25% лучше, чем два ведущих алгоритма, предсказывающих местные взаимодействия.

Другой вариант системы, MaSIF-search, работает с задачей, которую Коррейа называет «многие ко многим». Вместо того, чтобы предсказывать, как один белок свяжется с одной целевой молекулой (как обычно бывает в симуляторах), система сравнивает характерные признаки взаимодействия многих белков, и ищет совпадение.

«В клетке есть 10 000 белков, и многие из них постоянно сталкиваются друг с другом», – пояснил Коррейа.

На этой задаче MaSIF не опережает ведущие предсказывающие алгоритмы; он нашёл примерно в два раза меньше потенциальных связей на случайной выборке из 100 белков. Однако предсказывающему алгоритму на поиск потребовалось порядка 100 дней вычислительного времени. У MaSIF ушло на это четыре минуты.

Это значительное ускорение «открывает интересные возможности» для базовых исследований, сказал Бронштейн. Ведь в теле человека белки формируют функциональные сети, состоящие из десятков тысяч взаимосвязей.

«На построение этих графов уходит огромное количество времени, — сказал Бронштейн. – С такими методами, какие использует MaSIF, может получиться лишь приближённый результат, однако и он позволяет вам создать хотя бы грубую версию этих сетей связанных белков для любого организма».

Аль-Кьюрайши отметил, что хотя такой поверхностный подход MaSIF к предсказанию взаимодействий белков и имел смысл, он не мог учесть такое явление, как индуцированное соответствие: то, как поверхности молекул меняют форму (и химические свойства), приближаясь друг к другу. Иначе говоря, поверхности двух белков могут не демонстрировать характерных признаков взаимодействия друг с другом, пока не сблизятся настолько, что почти соприкоснутся друг с другом. Этот фактор MaSIF пропускал, поскольку индуцированное соответствие зависит от структуры, находящейся под поверхностью белка.

«Эволюция, вероятно, проводит оптимизацию именно под это индуцированное соответствие, — сказал Аль-Кьюрайши. – Удивительно, что MaSIF, даже с этой оговоркой, всё равно работает достаточно хорошо».

Коррейа планирует изучить вопросы включения индуцированного соответствия и другой поверхностной динамики в MaSIF.

«Для меня это последний рубеж понимания работы белков, — сказал он. – Вероятно, следующие 10 лет я буду заниматься именно этим».

Однако на текущий момент у него имеются другие срочные дела – использовать MaSIF для сканирования шипастых белков, усеивающих поверхность вируса SARS-CoV-2, вызывающего COVID-19.

«Мы пытаемся понять, каковы характерные признаки взаимодействия в этом вирусе, — сказал он. – Судя по всему, у него есть ещё несколько мест для атаки, кроме тех, что мы уже знаем».

Коррейа уже использует эту информацию касательно SARS-CoV-2 для синтеза антивирусных белков с нуля. Он надеется опубликовать результаты в этом году.

«Было бы здорово, если бы мы могли разрабатывать новые белки на основе характерных поверхностных признаков вирусного белка, чтобы подавить вторжение вируса в клетки, — сказал он. – Для этого я и работаю».

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 5 (2 votes)
Источник(и):

Хабр