Как алгоритмы распознавания лиц помогут в лечении сотен заболеваний

Блог компании SkillFactory. Вычислительный биолог Анна Карпентер разработала первый алгоритм профилирования клеток на основе полученных с микроскопа изображений. Сегодня такие алгоритмы, в основе которых лежит технология распознавания лиц для социальных сетей, помогают медикам быстро классифицировать тысячи клеток.

Под катом делимся интервью Анны Карпентер для Quanta Magazine, где она рассказывает о возникновении первого алгоритма профилирования и рассказывает о большом эксперименте с сотнями типов клеток.

Используя методы машинного обучения, аналогичные тем, которые позволяют компьютерам распознавать лица, биологи могут характеризовать отдельные клетки в стопках полученных при помощи микроскопа изображений. Измеряя тысячи визуализируемых клеточных свойств (распределение меченого белка, форму ядра, количество митохондрий), компьютеры могут изучать изображения клеток в поисках закономерностей, позволяющих определить тип клетки и симптомы заболевания. Такое профилирование на основе изображений ускоряет поиск лекарств, улучшая скрининг соединений, нужным образом изменяющих характеристики клеток.

Анна Карпентер, вычислительный биолог и старший директор платформы визуализации Института Брода MTI и Гарвардского университета, — пионер этого подхода. Она разработала CellProfiler — широко используемое программное обеспечение с открытым исходным кодом для измерения наборов наблюдаемых признаков (фенотипов) по изображениям клеток. С момента его выхода в 2005 году он цитировался в более чем 12 000 публикациях.

Подход начинался как побочный проект во время её обучения как клеточного биолога: то, что Карпентер называет «маленьким клочком кода, чтобы сделать одну вещь», со временем превратилось в набор инструментов. Этот набор нашли полезным и другие исследователи. «Когда я подошла к концу своего постдокторантуры, то поняла, что мне гораздо больше нравится помогать другим биологам, создавая инструменты, а не заниматься конкретными биологическими вопросами», — сказала она. — Вот почему я в итоге осталась в компьютерных науках».

Член Массачусетской академии наук Карпентер получила премию MIRA Национального института здравоохранения, а также премию CAREER Национального научного фонда и премию 2020 Women in Cell Biology Mid-Career Award Американского общества клеточной биологии, а также другие награды.

В беседе с журналом Quanta Magazine Карпентер рассказала о радости перевода беспорядочной биологии в решаемые с помощью компьютеров проблемы, об амбициозной попытке скрининга лекарств от 200 заболеваний в одной пробирке, а также о том, как скромные, любопытные и умеющие общаться с людьми за пределами своей дисциплины исследователи могут создать культуру, которая разнообразит вычислительную биологию и машинное обучение. Интервью сокращено и отредактировано для ясности.

— Компьютерные ученые применяли свои навыки в биологии, но вы выбрали менее распространённый путь — из биологии в программную инженерию. Что вас мотивировало?

— Переход был вызван необходимостью. Во время работы над докторской диссертацией по клеточной биологии в Иллинойском университете Урбана-Шампейн в начале 2000-х годов я изучала, как комплекс ДНК и белков в эукариотических клетках (хроматин) реагирует на передаваемые через рецептор эстрогена сигналы. Это потребовало получения тысяч микроскопических изображений. На ручную работу ушли бы месяцы. Я решила, что будет здорово, если я придумаю, как автоматизировать работу микроскопа.

У меня не было формального образования в области компьютерных наук. Потребовалось около месяца, чтобы понять, как программировать микроскоп, но это сэкономило мне два месяца, которые я потратила бы на очень скучный ручной сбор изображений. Возникла новая проблема: у меня была огромная куча изображений для анализа. Я провела ещё месяцы и месяцы, копируя и вставляя код, разбираясь с этим по ходу дела.

Но, как только начала играть с анализом изображений, я подсела. Это было так приятно — иметь возможность превратить грязную, качественную биологию в точные, количественные цифры. И я решила найти должность постдокторанта, где могла бы ускорить процессы в биологии, работая над высокопроизводительной визуализацией.

— В последнем эссе вы описываете биологию как «беспорядочную», но в то же время «логическую головоломку». Не могли бы вы рассказать об этом немного подробнее?

— Биология — довольно сложная наука. Вы полагаете, что A активирует B, который активирует C, а затем C подавляет D и так далее. Но в действительности в клетках работает множество странных, неточных взаимосвязей: обратная связь, множественные входы, альтернативные пути. Но я также считаю, что биология — это логическая головоломка. Лучшее, что мы можем сделать, — попытаться ограничить систему, которую мы тестируем. Затем мы можем возмущать её, измерять входные и выходные показатели и так далее. Наложив множество ограничений, мы можем немного распутать биологию.

— Во время постдокторантуры в Институте Уайтхеда вы начали работать над тем, что в конце концов стало CellProfiler. Как вы шли к этому?

— Я поняла, что мне нужен серьёзный код для проекта, поэтому просто погрузилась в работу и методом проб и ошибок изучила программирование. Но мне всё ещё требовалась помощь в реализации некоторых классических алгоритмов обработки изображений. Я читала статью и говорила: «Это именно то, что мне нужно», — но я понятия не имела, как преобразовать уравнения статьи в код.

Я отправила письмо в список аспирантов Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института и спросила: «Кто-нибудь хочет мне помочь? У меня есть немного денег на стипендию». Туис (Рэй) Джонс откликнулся и за одни выходные реализовал основные алгоритмы. Они были весьма революционными и стали основной причиной успеха CellProfiler: он сделал эти алгоритмы доступными конечным пользователям.

— Благодаря количественной оценке фенотипических различий в различных клетках в большом масштабе CellProfiler может использоваться для «профилирования на основе изображений». Как вам пришла в голову эта идея?

— Люди приходили к нам и говорили: «Вот мой тип клетки. Вот моё специальное антитело для маркировки какого-то белка в клетке. Можете ли вы сказать мне, сколько моего белка присутствует в ядре?» Конечно, с помощью анализа изображений мы можем измерить, что они попросят.

Глядя на изображения, я бы сказала: «Вы также заметили, что текстура белка меняется? Или что на самом деле его больше на краю ядра, чем внутри? И мы видим колокализацию между этим и тем пятнами. И общая форма клетки меняется. Имеет ли это биологический смысл?» Столько информации биологи оставляли в стороне, не получив выгоды!

Подробнее
Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

Хабр