Цифровой след человека — вещь абсолютно объективная

В мае Университетский консорциум исследователей больших данных, образованный российскими вузами во главе с Томским государственным университетом, объявил о старте нового проекта. Ученые планируют проанализировать по данным социальных сетей реакцию миллионов россиян на переход школ и вузов к дистанционному обучению.

Что именно можно узнать по тысячам аккаунтов, как вычленить необходимое, как будут использованы результаты проекта и почему анализ больших данных — не слежка за пользователями, Indicator.Ru рассказали председатель консорциума профессор ТГУ и Орегонского университета Михаил Мягков и заведующий лабораторией наук о больших данных и проблемах общества ТГУ Вячеслав Гойко.

— Почему у вас возникла идея исследовать переход образования в онлайн именно по данным соцсетей?

М. М.: Изучение не только соцсетей, а вообще связи цифрового следа человека с его поведением в экономическом, политическом, маркетинговом и других пространствах — в некотором смысле наша специальность. Внутри консорциума мы развиваем компетенции, методологию, инфраструктуру, которая позволяет соединять знания и опыт из нескольких различных дисциплин — это социология, политология, маркетинг и другие — с технологиями анализа больших данных. В каждом случае мы решаем конкретные прикладные задачи, и спектр наших работ очень широк — от благотворительности до праворадикальных экстремистов.

В этом проекте мы тоже идем от задачи. У всех нас несколько месяцев назад возник новый вызов, пришлось быстро адаптироваться к новым реалиям, причем во всех областях нашей жизни. А образование пронизывает сейчас все наше общество насквозь. Каждый человек либо учится сам, либо учатся его дети, это и общее, и дополнительное образование. И с переходом в онлайн всем стало важно понять (причем это важность с оттенком беспокойства и волнения): а как правильно переходить, какой результат мы получаем, как студенты и школьники воспринимают знания через онлайн-технологии, какие возникают психологические проблемы, как на все это реагируют родители. Возникает целый ворох вопросов, но ответов на них пока нет: мы находимся на середине грандиозного всемирного эксперимента, повсюду образовательные технологии в одночасье кардинальным образом поменялись. В нашем проекте, который мы ведем по инициативе Министерства науки и высшего образования, мы пытаемся map the uncharted waters — нанести на карту места, куда мы заплыли, где мы не знаем, где мель, а где водоворот, чтобы понять, что мы делаем правильно, что неправильно, где нас поджидают опасности, а где, наоборот, возник опыт, который нужно использовать и в бескоронавирусной жизни. Как в любой подобной экспедиции, иногда нам может показаться, что мы открыли Индию, а на самом деле это Америка. Мы пока очень много чего не знаем, но чем дальше мы углубляемся, чем больше собираем данные, тем больше мы узнаем. У нас прекрасная команда, лидером которой является Вячеслав.

В. Г.: Начнем с того, что наш консорциум — объединение снизу по инициативе ТГУ. Мы объединились в 2017 году, чтобы обмениваться данными, компетенциями, ресурсами и сообща делать социально значимые проекты. И проект по анализу перехода на дистанционное обучение всей российской системы образования мы тоже начали по собственной инициативе вместе с Институтом образования ВШЭ. На результаты этого исследования обратило внимание Министерство, и мы расширили проект, к нему присоединились еще семь университетов.

— Расскажите, какими были результаты вашего пилотного исследования.

В. Г.: В рамках пилота мы исследовали только университеты. Нам было интересно, как этот процесс прошел в разных вузах: у нас и у других участников Проекта 5–100 онлайн-обучение уже существовало, пусть и не в таком масштабе, и переход был достаточно безболезненным. А как с этим справились региональные вузы, где раньше не было ставки на онлайн-обучение? Мы выбрали 79 университетов из разных субъектов РФ и собрали по ним данные с 1 февраля по апрель. Причем мы сделали ставку не на официальные сообщества вузов, а на неформальные, в которых студенты обсуждают все — от шпаргалок до общежитий. Как оказалось, порядка 7% сообщений в этот период так или иначе относятся к тематике дистанционного обучения. Мы выяснили, что переход прошел не так плохо, как могло бы показаться. Преподаватели так или иначе участвовали в онлайн-обучении, а в университетах была инфраструктура. К сожалению, для многих преподавателей онлайн-обучение обернулось увеличением количества «домашки» — занятия состоят из маленькой лекции на 20 минут и огромного задания. Студентам это, конечно, не понравилось. Раньше можно было не ходить на лекции и все сдавать, а теперь приходится работать. Тем более что и занятие не прогуляешь, это все легко фиксируется в Moodle и других системах.

Больше всего было организационных проблем, и часто не на стороне университетов. Например, в Якутии вузы столкнулись с проблемой плохого интернета в отдаленных регионах. В других вузах студенты разъехались в разные часовые пояса, и это тоже надо было учитывать. Поэтому Михаил инициировал проект по цифровизации лекций: это запись полноценных лекций (не по Zoom, а с настоящей доской в классе) с возможностью доступа к ним в любое время. В целом оказалось, что, несмотря на организационные проблемы, студенчество лояльно перенесло переход. Треть сообщений студентов позитивные. И сейчас студенты не хотят возвращаться к прежнему формату, в тесные помещения, хотят когда и где угодно слушать лекции.

М. М.: Добавлю, что здесь очень интересное отличие наших студентов от западных, в частности американских. Я преподаю в США, два раза в неделю читаю лекции, и там у большинства диаметрально противоположное отношение. Они очень боятся, что им нельзя будет осенью вернуться на кампусы, что лекции будут онлайн, и заявляют, что, если это продолжится, они все уйдут в академ. Это любопытный факт, над которым интересно подумать.

В. Г.: Еще одна особенность в том, что больше всего переход в онлайн ударил не по процессу обучения, а по подработкам студентов. Университеты, надо отдать должное, достаточно оперативно запустили проект по студенческим биржам труда. Это проект начали ТГУ с Балтийским и Дальневосточным федеральными университетами. Сейчас вузы сами генерируют вакансии и раздают студентам. В основном это удаленная работа на несколько часов в неделю или разовая подработка, например фотографом для пресс-службы или волонтером на раздаче антисептика. Министерство это поддержало, и сейчас у нас в университете есть биржа труда, созданная при поддержке консорциума, — UniProfi. В Томске она рассчитана на шесть вузов. И самое интересное в том, что она становится классным инструментов для поиска кадров. Мы там нашли, например, одного талантливого аспиранта с математическим бэкграундом для задач прогнозирования.

М. М.: Мы очень надеемся, что какие-то из опытов и практик, которые мы сейчас развиваем (в обычной жизни на них не было бы ни времени, ни денег, ни людей), будут полезны и останутся с нами и в послекоронавирусной жизни. Хоть небольшой, но плюс из этой ситуации.

— Как вы расширили проект, когда к нему подключились другие участники консорциума?

В. Г.: Теперь мы собираем данные по 327 вузам, мы просто взяли весь рейтинг Интерфакса. Кроме студентов, взяли старшеклассников 16–17 лет. Это целевая аудитория университетов, проблемы абитуриентов — это проблемы и вузов. Также взяли их родителей и школьных учителей, в том числе потому, что университеты генерируют образовательный контент и для них. Теперь эти образовательные модули, возможно, будет нужно корректировать в связи с ситуацией. Плюс мы изучаем университетских преподавателей, это тоже важно. Но подчеркну, что мы не создаем систему слежки за всеми, у нас данные специально обезличены. Наша задача —найти проблемы, найти позитивные сдвиги, собрать предложения и все это проанализировать, чтобы на самом деле предложить помощь Министерству.

М. М.: Да, помощь в понимании реакции на те или иные инициативы, с которыми оно выходит, в студенческой, академической, профессорско-преподавательской среде. Решения, которые нам кажутся правильными и естественными, иногда имеют непредсказуемые последствия. Вспомните, как в первый день введения цифровых пропусков в Москве их начали проверять у всех в метро. Никто не хотел специально собрать толпы, но последствия были именно такими. В образовании то же самое. Когда министерства принимают решения, связанные с переносом ЕГЭ, с распределением его на несколько волн, с переходом на дистант, появляются вопросы, какая реакция на это, правильно ли это было сделано, есть ли другие методы. И наш проект — хорошая обкатка различных возможностей помощи Минобрнауки и другим организациям, которые принимают важные для жизни людей решения. Не было бы пандемии, мы бы этим так активно не занимались бы. А тут появилась возможность развить это направление. Также хочу подчеркнуть: мы здесь ни за чем не следим, у нас не электронные пропуска и прогулки по расписанию три раза в неделю. Мы ученые и анализируем именно большие данные. Мы исследуем агрегированные данные, естественно, их обезличиваем, они из обычных открытых источников, и на их основании мы пытаемся создать методологии и технологии помощи государственным и другим структурам в решении общественно важных проблем.

— Получается, ключевое в проекте — выявить болевые точки, проблемы, на которые люди обращают внимание в соцсетях?

М. М.: Не только их. Это важная задача, но, с другой стороны, важно и понимание эффективности тех или иных инициатив, оценка реакции студентов на те или иные процессы. Например, откуда мы знаем, что студенты не списывают домашние задания? Как предотвратить academic fraud? Это не болевая точка, студентам, может, и хорошо, что никто не видит, как они делают домашнее задание. Но понять, каким образом онлайн-технологии могут быть устроены, чтобы минимизировать такие проблемы, — тоже одна из задач.

— Расскажите о процессе сбора и анализа данных.

В. Г.: Мы работаем с «ВКонтакте» и «Одноклассниками», а также с данными СМИ и блогов. Из «Одноклассников» мы взяли немного данных, анализ показал, что там практически нет сообществ, где шло бы реальное обсуждение. Во «ВКонтакте» есть две сущности — стена человека и сообщество. Как искать людей? Мы этим занимаемся с 2016 года, есть свои алгоритмы и партнеры, например компании «Крибрум» и «Форексис». Многие наработки мы взяли из проекта по поиску талантливых абитуриентов в ТГУ. Поиск идет по возрасту или по году окончания вуза, по подпискам, по страницам друзей. Например, огромное количество старшеклассников — я не перестаю им удивляться — ведут один аккаунт для родителей, а второй настоящий. Но на обоих они дружат с одними и теми же людьми, и, даже если аккаунт закрыт, по открытым аккаунтам друзей связь можно выявить. Тесты показывают, что мы находим 80% всех старшеклассников в соцсети. Самое сложное — искать родителей. Подростки часто указывают друзей как маму и папу, это легко отсекается фильтрами, но все равно родителей в наших данных очень мало. В основном их можно найти через тематические сообщества. Школьных учителей и университетских преподавателей мы ищем по месту работы, по возрасту и по тематическим подпискам. Студентов находить проще всего, они почти всегда указывают место своего обучения и подписаны на тематические сообщества. Понятно, что полностью всех мы найти не можем, но релевантную репрезентативную выборку создаем.

Другой момент, что на стенах, особенно у студентов, очень мало авторского контента. Больше сообщений идет из сообществ, но и там релевантно 7–10% постов. Эту работу можно сравнить с копанием в стоге сена, когда 90% всего вы отбрасываете.

Отбросить мусор и классифицировать контент по тематикам можно автоматически, но его анализ будет проводиться в полуавтоматическом режиме. Аналитическую работу сложно автоматизировать. Надо сказать, что, хотя жалобы преобладают среди сообщений (мы уже привыкли, что соцсети — это жалобная книга), много и других тем. Самое интересное — выявление так называемых инсайтов. Например, сейчас некоторые университеты задумались — нужно ли возвращать студентов с онлайн-обучения? Ведь многие без проблем могут учиться удаленно, сейчас даже физкультуру так проводят. И люди отмечают это в своих постах. Нам важно понять динамику сообщений, потому мы специально берем данные с начала года. Это поможет определить, какие проблемы существовали всегда, а какие возникли после перехода на онлайн. И если это новая проблема, почему она появилась? Например, стипендии стали более заметной темой, но не потому, что их стали задерживать, а потому что из-за отсутствия подработок денег у студентов стало меньше.

— Как распределены задачи проекта между вузами-участниками?

В. Г.: Каждый университет у нас представлен командой из трех-четырех человек, это руководители и аналитики, разметчиками сообщений, также у нас есть техотдел в ТГУ. Всего над проектом работают около 100 человек. Задач много, и на самом деле в каждой есть научная составляющая. Например, взять самую, казалось бы, простую задачу —определить категорию, к которой нужно отнести сообщение. Сколько должно быть таких категорий — онлайн-обучение, стипендии, общежития, что еще? Какие сообщения считать нерелевантными? Если я спрашиваю, когда будет пара, — это нужно учитывать? Сейчас у нас идет кросс-разметка, когда команды из трех университетов размечают один набор данных. Это нужно не для контроля, а для того, чтобы понять, где проблемы, какие сообщения мы по-разному читаем. Кажется, что это самая низкоинтеллектуальная рутинная работа, но в ней есть свои сложности. Попробуйте организовать людей так, чтобы они одно и то же сообщение поняли одинаково. Чтобы составить качественные обучающие выборки для искусственной нейросети, нам нужно, как мы шутим, сначала обучить нейронные сети в головах студентов-разметчиков. А они потом обучат искусственную сеть.

У всех участников есть эта «повинность» по ручной разметке, кроме того, у каждого есть научные и аналитические задачи. Некоторые участвуют в большей степени в построении методологии, например, Севастопольский университет силен школой анализа медиа, и в проекте они заняты этим. Плюс у некоторых участников есть технические компетенции, они помогают строить классификаторы на основе машинного обучения.

— Отношение студентов и преподавателей уже исследовалось в ходе нескольких опросов этой весной. Как ваша работа соотносится с результатами этих проектов и в чем ваши преимущества?

В. Г.: Мы работаем вместе с командами, которые проводили эти опросы, например участвовали в разработке опроса студентов с ВШЭ и помогали распространять опросник преподавателей от РАНХиГС. В своем проекте мы отказались от классических опросников не потому, что они плохие. Они дают альтернативную точку зрения на тот же объект, а мы смотрим на него с другой стороны, используем другие технологии. Опрос может охватить 10 тысяч студентов, а мы можем собрать миллион аккаунтов и посмотреть, что они думают и говорят. Можно пошутить, что количество переходит в качество, но, если серьезно, по нашим методам можно проводить постоянный мониторинг. Кроме того, у нас много побочных данных — мы видим, как люди связаны между собой, дружат ли они, какие у них источники информации. Это подвижное поле, и мы можем сделать в нем достаточно много временных срезов, увидеть динамику. Но конечно, мы активно взаимодействуем с коллегами, которые используют другие методы. В целом университетскому сообществу свойственна открытость, мы друг другу активно помогаем.

М. М.: Социологические опросы проблематичны не столько потому, что в них участвует мало людей, сколько потому, что люди не склонны говорить то, что думают. Особенно в проблемных ситуациях человек на прямой опросник скорее ответит так, как ему кажется правильно. А в такой ситуации, как сейчас, когда ломаются различные когнитивные каноны взаимодействия между людьми, есть большое количество психологических проблем.

С другой стороны, цифровой след человека — вещь абсолютно объективная. Чем дольше человек живет в этом цифровом мире, тем больше цифрового следа он оставляет. Единица исследования для нас — именно человек со всеми его поведенческими, личностными, психологическими и прочими характеристиками. Мы стремимся разработать методики анализа связи этого цифрового следа и поведения человека, его отношения к различным процессам. Чем больше и дальше мы будем это делать, тем лучше будем понимать, какие у людей проблемы, что им нужно, как реагировать на вызовы общества. Естественно, это имеет не только научные и общественные, но и коммерческие приложения. Это и маркетинг, и помощь в профориентации, прохождение практик и возможность трудоустройства.

Мне кажется, что в будущем эти цифровые следы будут очень сильно помогать нам. Сейчас мы пытаемся развивать методологию этой помощи. Этим уже многие занимаются, но, например, к результатам работы интернет-компаний, к их данным и методологиям нет доступа у большого количества ученых. Мы изначально пошли по другому пути и даже назвали наш консорциум «Университет открытых данных». Мы даем полный и неограниченный доступ к нашим данным тем, кто с нами сотрудничает. Стратегия очень простая — чем больше людей придет в эту область, тем вероятнее, что возникнут интересные инновационные технологии анализа и применения этих данных. Другой такой организации с абсолютно открытым подходом я не знаю. И второй важный момент — у нас работает очень междисциплинарная команда. Только в таком соединении специалистов из разных областей, я считаю, мы можем что-то сказать о поведении человека.

Пожалуйста, оцените статью:
Ваша оценка: None Средняя: 2.5 (2 votes)
Источник(и):

Индикатор