Программа может предсказывать завтрашние новости

Программа может предсказывать завтрашние новости

Исследовательское подразделение компании Microsoft и израильский технологический институт Технион представили первый прототип новой программной системы, способной предсказывать темы завтрашних новостей. Назначение этой системы заключается в тщательном анализе уже произошедших событий с целью формального прогнозирования будущих событий. В частности, как надеются разработчики, эта система поможет предугадывать вспышки насилия или эпидемии инфекционных заболеваний в конкретных точках планеты.

В ходе работы над новой системой исследователи взяли в качестве исходного материала подшивку статей из газеты New York Times за 20 с лишним лет – с 1986 по 2007 г. Кроме того, для анализа применялась информация из множества онлайн-источников, включая DBPedia, WordNet и OpenCyc. Опираясь на эту основу, авторы решили выяснить, какие причины и предпосылки чаще всего ведут к крупным событиями вроде эпидемий и войн. Во главе нового проекта стоит Эрик Горовиц (Eric Horvitz), заслуженный научный сотрудник и содиректор Microsoft Research, а также молодая обладательница докторской степени Кира Радински (Kira Radinsky) из Техниона. Примечательно, что Кира Радински также является сооснователем и техническим директором компании SalesPredict, которая занимается прогнозированием продаж в коммерческих организациях. Созданный прототип уже опробован на фактических данных, где были обнаружены корреляции между погодными аномалиями, вроде наводнений в Африке, и последующими событиями, вроде эпидемии холеры после наводнений. В результате такого анализа прогноз об очередной вспышке холеры можно построить почти за год, опираясь только на сведения о погоде. Точность предсказаний в тестах составила 70-90 %.

В своей разработке ученые описали методы работы с исходной информацией. Например, цепочка событий считается принадлежащей предметной области D, если цепочка включает в себя одно из ключевых слов этой области, обозначаемое, как wi(D). Например, для прогнозирования событий с человеческими жертвами выполняется поиск по словам «убиты», «мертвы», «смерть» и связанным с ними терминам. Для прогнозирования эпидемий используется поиск всех упоминаний холеры, малярии и дизентерии.

Строго говоря, поиск взаимосвязей давно используют эпидемиологи, чтобы определить первопричины вспышек заболевания. В то же время, обычно этот анализ имеет ретроспективную природу, а новый проект призван построить прогнозы и рекомендации для действий в ближайшем будущем.

Сейчас авторы новой системы собираются продолжить работу по исследованию большего объема публикаций и оцифрованных книг. Следующие версии этой системы планируется использовать ведомствами, которые обеспечивают гуманитарную помощь. Кроме того, система может послужить стимулом для дальнейших исследований в краткосрочном прогнозировании событий глобального масштаба, таких как стихийные бедствия, болезни, войны и так далее: человеческая природа и цикличность природных событий на протяжении лет меняются очень слабо. Полный текст работы Горвица и Радински можно найти в статье по адресу http://research.microsoft.com/en-us/um/people/horvitz/future_news_wsdm.pdf.

Источник: soft.mail.ru