Процесс распространения заболеваний кажется достаточно простым: стоит вам оказаться в общественном месте с большим количеством людей, некоторые из которых больны, как через пару дней вы и сами начнете ощущать симптомы.
Именно эти простые логические заключения легки в основу исследования трех ученых из Университета Рочестера, которые попытались использовать Twitter, чтобы предсказать распространение заболеваний. По словам ученых, человеческий контакт – это главный фактор в передаче инфекционных заболеваний, но в большинстве случаев этот контакт является непрямым, например, через дверную ручку, а потому исследователи сосредоточили свое внимание на сосуществовании.
Идея исследователей похожа на алгоритм Google Flu Trends, который анализирует, где люди использует поисковые запросы «грипп», и определяет, где может начаться эпидемия. Однако ученые хотели улучшить возможности Google Flu Trends и сделать прогноз более индивидуальным.
Исследователи проанализировали более 4,4 миллионов записей Twitter, привязанных к координатам GPS от 600 тысяч жителей Нью-Йорка в течение нескольких месяцев 2010 года. Работа алгоритма была усовершенствована за счет учета таких факторов, как число контактов с заболевшими людьми и людьми, которые проявили первые симптомы заболевания. Новая модель смогла вычислить роль продолжительности общения на передачу заболевания, а также инкубационный период между заражением и проявлением первых симптомов. В расчет принималось не только здоровье «друзей», но и посторонних людей, с которыми каждый человек мог вступать в контакт.
Благодаря этому, алгоритм ученых смог с точностью в 90% определить, заболеет ли здоровый человек. При этом прогноз появлялся в среднем за 8 дней до проявления первых симптомов.
Конечно, у этой системы есть ограничения. Например, не каждый готов обновлять статус в Twitter во время болезни. К тому же существуют и другие факторы, помимо контактов с больными людьми, которые могут влиять на состояние здоровья.