Как мы фронтиры науки с помощью тематического моделирования искали

Автор публикации: Николай Герасименко. Некоторое время назад перед нашей NLP-командой была поставлена необычная задача: построения системы определения фронтиров науки. Некоторые из нас до постановки задачи ни разу даже не слышали слово «фронтир», и мы начали с того, что стали разбираться, что оно значит.

Буквальное историческое определение слова frontier – это граница между освоенными и неосвоенными поселенцами свободными землями на Диком Западе. Естественно, от этого буквального определения нам была интересна только часть про границу между освоенным и неосвоенным, она же «передний край науки». Получается, перед нами была поставлена задача автоматически определить, где проходит этот передний край.

Для планирования научно-технического развития страны или компании необходимо знать, какие направлений растут и перспективны (фронтиры), а какие технологии уже достигли пика развития и вкладываться в них поздно. Правильное определение перспективных направлений (фронтиров) позволит финансировать темы, которые принесут наибольшую пользу науке, бизнесу и обществу в целом. Как правило, такие перспективные направления определяют эксперты. Но как мы с вами понимаем, там, где есть человек, есть и человеческий фактор, и все связанные с ним недостатки.

Задача обнаружения трендов, конечно же, не является новой, она была представлена еще в 2004 году. Конечно, с тех пор был выработан ряд подходов к ее решению, с большей или меньшей степенью участия в них человека. Мы пошли по пути, предполагающем наибольшую автоматизацию и основанном на автоматическом выделении тем из корпуса текстов с последующим их анализом. Уже существуют работы, (например, эта или эта) в которых используется такой подход.

Однако в них используется LDA, устаревший метод построения тематических моделей. Мы пошли похожим путем, но используем более современный подход ARTM, который позволяет гораздо более гибко и качественно обучать тематические модели. Данный подход уже успешно использовался в при обработке научных и научно-популярных статей, но в нашем исследовании фокус был сделан на высокой интерпретируемости тем и извлечении декоррелированных (подробнее см. ниже) трендов.

После небольшого исследования мы выяснили, что быстро и легко можно получить большой датасет научных статей с arXiv (1.7M +) по разделам STEM (Science, Technology, Engineering and Mathematics). Большой файл с метаданными (название, аннотация, год, авторы, и т.д.) этих статей выложен на kaggle, тут. Полные тексты этих статей можно скачать через различные api-сервисы arXiv, что мы и проделали для тех статей, которые касаются ML и AI (а именно статьи, относящиеся к категориям cs.AI, cs.CL, cs.CV, cs.LG, cs.MA, cs.NE, cs.RO, stat.ML).

Кроме arXiv-STEM датасета мы, бегая краулером по сайтам и мучительно расковыривая pdf-ки, спарсили архив статей с мировых топ-конференций по ML и AI: NIPS, CVPR и ACL. В результате у нас получился увесистый csv-файл с 143653 статьями, опубликованными с 1987 по 2020 гг., да ещё и с метаинформацией в виде авторов и года публикации. Конечно, при таких объемах данных о ручном анализе не может быть и речи, нужен какой-то автоматический или, на худой конец, полуавтоматический способ провести то, что называется exploratory data analysis или разведочный анализ данных.

Тематическая модель с аддитивной регуляризацией

В первую очередь нам захотелось узнать, каких тем вообще касаются авторы в нашей коллекции.

Подробнее
Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 4.5 (2 votes)
Источник(и):

Хабр