«Мы хотели понять, как каждая из кампаний кандидата развилась, и быть в состоянии объяснить, почему кто-то победил или проиграл», говорит Ло, адъюнкт-профессор информатики.Ло и Ван, двойной кандидат доктора философии в политическом и информатике, суммировали их результаты в восьми газетах в ходе кампании, включая эти наблюдения:Чем больше Дональда Трампа написало в Твиттере, тем быстрее его после ровного вырастания после того, как он выступил плохо в дебатах против других кандидатов от республиканской партии, и даже после того, как он зажег споры, такие как предложение запрета на мусульманскую иммиграцию. (Прочитайте газету в https://arxiv.org/abs/1603.08174),Когда Трамп обвинил Хиллари Клинтон в разыгрывании «карты женщины», женщины, более вероятно, будут следовать за Клинтоном и менее вероятно «не следовать» за нею в течение недели, которая следовала.
Но это не затрагивало гендерный состав последователей Трампа. (Прочитайте газету в https://arxiv.org/abs/1605.05401),Кроме того, «гендерный эффект близости», замеченный в других женщинах выборов, бывших склонных голосовать за женщин – казалось, не работал на Клинтона, поскольку предварительные выборы приблизились к концу. Процент женщин – подписчиков в Твиттере в лагере Клинтонов был не больше, чем это в лагере Трампа. Кроме того, хотя «непоследователи», более вероятно, будут женского пола для обоих кандидатов, явление было «особенно объявлено» для Клинтона. (Прочитайте газету в https://arxiv.org/abs/1604.07103),
В то же время несколько опросов, включая ABC/Washington Post и CBS/Нью-Йорк таймс, предположили, что некоторые сторонники Берни Сандерса могли бы «дезертировать с корабля» из демократической колонки и закончить тем, что голосовали за Трампа, если бы Сандерс выбыл. Ло и Ван нашли доказательства поддержки, сообщив, что число последователей Берни Сандерса, которые также следовали за Трампом, увеличивалось – но число также после Клинтона уменьшалось. Двойные последователи Sanders/Trump были также непропорционально (64-процентным) мужчиной. (Прочитайте газету в https://arxiv.org/abs/1605.09473),«В конце, даже при том, что мы приняли решение не сделать любые предсказания, мы не были удивлены всем тем выигранным Дональдом Трампом», говорит Ло.
Почему Твиттер?Использование Бараком Обамой социальных сетей в президентской гонке 2008 года помогло установить Твиттер и другие платформы социальных сетей как мощные инструменты для кандидатов, чтобы быстро достигнуть и получить обратную связь от больших количеств потенциальных избирателей – и напасть на их противников.С тех пор был растущий интерес к академическому исследованию, использующему науку данных, чтобы проанализировать выборы на основе регистраций социальных сетей.
Твиттер, в частности, является богатым источником данных, потому что миллионы твитов, опубликованных его участниками каждый день, являются легкодоступным использованием интерфейса прикладного программирования.Ключ для Ло, Вана и их коллег должен был собрать как можно больше этих данных, начинание рано в кампании, и к тогда «взрывает» его инновационными способами.
Пол кандидата подписчики в Твиттере в апреле 2016, собранный Ваном и Ло.«Самая природа этих данных – то, что они исчезнут завтра, таким образом, мы должны были начать захватывать их от ранней стадии и проектировать структуру исследования, таким образом, мы могли продолжить собирать данные все время», сказал Ван.
С сентября 2015 до октября 2016 команда начала накапливать огромный набор данных, который включал:Число подписчиков в Твиттере каждого из основных кандидатов в первоначально переполненном обновляемый областью каждые 10 минут.8 миллионов твитов, выбранных от последователей Клинтона и Трампа.1 миллион изображений последователей кандидатов в Твиттере.
5 миллионов идентификаторов Твиттера, которые включают всех последователей кандидата в начале апреля 2016.Используя современные компьютерные инструменты видения, исследователи обучили искусственную нейронную сеть (что назвало сверточную нейронную сеть) определить – с 90-процентной точностью или более – возраст, пол и гонка последователей кандидатов, использующих их фотографии Твиттера. Это помогло исследователям проанализировать роль каждого из тех факторов в кампании, когда они отследили изменения в последователях каждого кандидата прежде и после дебатов, например, и как последователи реагировали на собственные твиты кандидатов.У горной промышленности Твиттера есть свои пределы по сравнению с ответами, подбираемыми из традиционного телефонного опроса.
Нет никакой возможности задать последующие вопросы, например, и твиты трудно поместить географически, ограничивая их заявление на изучение тенденций в колеблющихся штатах. (Даже геотегируемые твиты могут быть отправлены, в то время как отправитель на каникулах или принимает участие митинг в другом государстве.)Но у Твиттера, добывающего также, есть свои позволяющие преимущества исследователи к быстро, все время, и недорого типовые данные по масштабу, который далеко превосходит приблизительно 1,000 ответов, что опросчики все больше и больше изо всех сил пытаются собрать использующие традиционные методы.
В одном исследовании например Ло и Ван смогли характеризовать 322 116 последователей Трампа или Клинтона, которые впоследствии стали «непоследователями».«Это – подход, который широко применим», говорит Ло. «Если Вы хотите проверить общественную реакцию на следующее поколение iPhone, или к новой модели автомобиля, Вы можете использовать тот же самый подход, чтобы видеть, каких потребителей как или не любят.
Это позволяет нам следить за миллионами людей и получить надежные чтения на их предпочтениях».