Как «машинные учёные» выводят законы физики из необработанных данных

Блог компании SkillFactory. Автор оригинала: Charlie Wood. Исследователи говорят, что мы в шаге от «физики GoPro», когда камера сможет указывать на событие, а алгоритм — определять лежащее в его основе физическое уравнение. Подробностями делимся к старту нашего флагманского курса по Data Science.

В 2017 году Роджер Гимера и Марта Салес-Пардо обнаружили причину деления клеток, но сразу показать, как они пришли к этому, не смогли. Исследователи не заметили важной закономерности в своих данных. Эту закономерность им выдало их же неопубликованное изобретение — цифровой помощник, которого они назвали «машинным учёным».

Комментируя этот результат, Гимера вспоминает, что подумал: «Мы не можем просто сказать, что передали данные алгоритму, и вот он ответ. Ни один рецензент этого не примет».

Чтобы определить, какие факторы могут вызывать деление клеток, двое учёных, которые вместе идут по жизни и проводят исследования, объединили усилия со своим бывшим одноклассником, биофизиком Ксавье Трепатом из Института биоинженерии Каталонии.

Многие биологи полагали, что клетка делится просто при достижении определённого размера, но Трепат предположил, что за этой историей кроется нечто большее. Его группа занималась расшифровкой наномерных отпечатков, оставляемых клетками на мягкой поверхности при их столкновении.

Команда Трепата собрала исчерпывающий набор данных о формах, силах и 12 других клеточных характеристик, но проверка всех вариантов их влияния на деление клеток заняла бы всю жизнь. Поэтому вместе с Гимерой и Салес-Пардо они ввели данные в машинного учёного. Через нескольких минут они получили краткое уравнение с прогнозом времени деления клетки, который оказался в 10 раз точнее прогноза уравнения, где учитывался только размер клетки или любая другая одиночная характеристика.

Для машинного учёного важен размер, умноженный на силу сжатия клетки её соседями, а это величина, содержащая единицы измерения энергии.

«Машине удалось уловить то, что не смогли мы», — заявил Трепат; они с Гимерой — члены Каталонского института перспективных научных исследований ICREA.

До тех пор, пока исследователи ничего не опубликовали об учёной машине, они вручную проверили сотни пар переменных, как они позже написали, «независимо от их физического или биологического значения».

По задумке учёных, так был восстановлен ответ машинного учёного, о котором они сообщили в Nature Cell Biology в 2018 году.

dannye1.pngРоджер Гимера и Марта Салес-Пардо (из Университета Ровира и Вирхилий в Испании), под руководством которых создан мощный алгоритм символьной регрессии Bayesian machine scientist («байесовский машинный учёный»)

Четыре года спустя этот метод становится признанным методом научных открытий. Салес-Пардо и Гимера — одни из немногих исследователей, разрабатывающих инструменты последнего поколения, пригодные для символьной регрессии.

Алгоритмы символьной регрессии отличаются от глубоких нейросетей — знаменитых алгоритмов ИИ, которые могут принимать тысячи пикселей, пропуская их через лабиринт из миллионов узлов, и с помощью малопонятных механизмов выводить слово «собака».

При символьной регрессии также в сложных наборах данных выявляются взаимосвязи, но результаты сообщаются в понятном людям формате короткого уравнения. Эти алгоритмы напоминают улучшенные версии функции вычерчивания кривой по точкам в Excel; в них для соответствия набору точек данных идёт поиск не только линий или парабол, но и миллиардов всевозможных формул. Поэтому машинный учёный способен указать людям на причину деления клеток, а нейросеть — лишь прогнозировать, когда это деление произойдёт.

Исследователи десятилетиями колдовали над такими машинными учёными, старательно пытались с их помощью заново открывать классические законы природы по чётким наборам данных, выстроенным так, чтобы выявлять закономерности. Но в последние годы алгоритмы стали достаточно зрелыми, чтобы находить нераскрытые взаимосвязи в реальных данных — например в том, как на атмосферу влияет турбулентность или как формируется скопление тёмной материи.

«В этом нет никаких сомнений, — считает Ход Липсон, специалист по робототехнике Колумбийского университета, начавший изучать символьную регрессию 13 лет назад. — Вся эта сфера идёт вперёд».

Восход машинных учёных

Иногда физики приходят к великим открытиям путём рассуждений, например как Альберт Эйнштейн, который пришёл к пониманию податливости пространства и времени, представив один луч света с точки зрения другого. Но чаще теории рождаются в результате длительной обработки данных.

Подробнее
Пожалуйста, оцените статью:
Пока нет голосов
Источник(и):

Хабр