研究人员利用Twitter数据流来预测流感爆发

研究人员对Twitter数据流加以过滤，加上地理标签，就能创建出一幅流感爆发地区地图。

Twitter流感信息来源分布示意图(腾讯科技配图)

美国一些计算机科学研究人员表示，此前已开始对Twitter用户所发布同流感有关的信息加以汇总分析，然后据推断出哪些地区有可能爆发流感，以便政府部门及医疗机构能够拿出应对措施。

早在2008年，谷歌曾推出了其著名的流感趋势网站。该网站假定的前提是：如果用户患上了流感，则他们会搜索更多同流感相关的信息。如此一来，如果对任何一个国家或地区有关流感的搜索量进行统计，就能较好推断出某个国家或地区是否正爆发流感。

事实上，谷歌的这项统计数据被证实很有效。谷歌的相应数据，同美国疾病控制与预防中心(CDC)等政府机构所统计的数据非常接近。在某些情况下，谷歌甚至能够比CDC提前一周预测出哪些地区将爆发流感。这种预测的重要意义不言而喻：如果能够提前预测可能出现的流行疾病，政府部门就能及时向公众发出提醒以及采取其他应对措施。

由此人们也就提出了另外一个很有意思的问题：其他网络服务尤其是社交媒体，是否也能像谷歌搜索那样预测流感甚至预测效果更好?今天我们已经获得了相应答案：美国卡内基梅隆大学研究人员李继伟(音译：Jiwei Li)以及康奈尔大学研究人员克莱尔·卡迪(Claire Cardie)通过对相应Twitter信息加以汇总和分析，就能成功推断哪些地区出现了流感爆发的初期症状。

李继伟和卡迪的数据统计及分析方式，其实与谷歌的统计方法有很多类似之处。他们对Twitter数据流加以过滤，只留下与流感相关的信息，并为这些信息加上地理位置标签。通过这种方式，这两位研究人员就能创建出一幅流感爆发地区地图，以显示相关流感Twitter信息来自哪儿，以及这些信息在一定时间段内的变化情况。

这两位研究人员还为流感爆发创建了一个动态模式，并提供了一些很有意思的细节内容。在这个新模式中，流感爆发可分为四个阶段：尚未爆发期、感染人员数量增长期、感染人群数量稳定期和感染人员数量下降期。

这种新型方式，还试图提前预测出流感从一个地区转向另一个地区的趋势。为测试这种方法的有效性，李继伟和卡迪共统计了360万条同流感相关的Twitter信息，涉及用户约100万，信息发布时间在2008年6月到2010年6月之间。在得出相应分析结果后，他们将分析结果同CDC的相应数据进行了对比。李继伟和卡迪说：“我们的研究表明，Twitter的流感信息同CDC提供的流感爆发数据之间呈高度正相关性。”

由此看来，李继伟和卡迪的上述最新研究方式，无疑为公众应对流感提供了另一条有效工具，它能够使我们提前预测到某个地区流感即将到来。如果将这些预测同谷歌流感趋势、CDC的相应预测进行对比，无疑也将是件很有意思的事情。

全球每年约10%~15%的人群会患上流感，受感染人群约5000万人，死亡人数约50万。这可不是个小数字。如果我们能够尽早提前预测到流感即将爆发，无疑将使全球公众都将受益：政府和医疗机构提前拿出应对措施，就能挽救大量生命。

关于我们