研究人员对Twitter数据流加以过滤,加上地理标签,就能创建出一幅流感爆发地区地图。

研究人员利用Twitter数据流来预测流感爆发
Twitter流感信息来源分布示意图(腾讯科技配图)

美国一些计算机科学研究人员表示,此前已开始对Twitter用户所发布同流感有关的信息加以汇总分析,然后据推断出哪些地区有可能爆发流感,以便政府部门及医疗机构能够拿出应对措施。

早在2008年,谷歌曾推出了其著名的流感趋势网站。该网站假定的前提是:如果用户患上了流感,则他们会搜索更多同流感相关的信息。如此一来,如果对任何一个国家或地区有关流感的搜索量进行统计,就能较好推断出某个国家或地区是否正爆发流感。

事实上,谷歌的这项统计数据被证实很有效。谷歌的相应数据,同美国疾病控制与预防中心(CDC)等政府机构所统计的数据非常接近。在某些情况下,谷歌甚至能够比CDC提前一周预测出哪些地区将爆发流感。这种预测的重要意义不言而喻:如果能够提前预测可能出现的流行疾病,政府部门就能及时向公众发出提醒以及采取其他应对措施。

由此人们也就提出了另外一个很有意思的问题:其他网络服务尤其是社交媒体,是否也能像谷歌搜索那样预测流感甚至预测效果更好?今天我们已经获得了相应答案:美国卡内基梅隆大学研究人员李继伟(音译:Jiwei Li)以及康奈尔大学研究人员克莱尔·卡迪(Claire Cardie)通过对相应Twitter信息加以汇总和分析,就能成功推断哪些地区出现了流感爆发的初期症状。

李继伟和卡迪的数据统计及分析方式,其实与谷歌的统计方法有很多类似之处。他们对Twitter数据流加以过滤,只留下与流感相关的信息,并为这些信息加上地理位置标签。通过这种方式,这两位研究人员就能创建出一幅流感爆发地区地图,以显示相关流感Twitter信息来自哪儿,以及这些信息在一定时间段内的变化情况。

这两位研究人员还为流感爆发创建了一个动态模式,并提供了一些很有意思的细节内容。在这个新模式中,流感爆发可分为四个阶段:尚未爆发期、感染人员数量增长期、感染人群数量稳定期和感染人员数量下降期。

这种新型方式,还试图提前预测出流感从一个地区转向另一个地区的趋势。为测试这种方法的有效性,李继伟和卡迪共统计了360万条同流感相关的Twitter信息,涉及用户约100万,信息发布时间在2008年6月到2010年6月之间。在得出相应分析结果后,他们将分析结果同CDC的相应数据进行了对比。李继伟和卡迪说:“我们的研究表明,Twitter的流感信息同CDC提供的流感爆发数据之间呈高度正相关性。”

由此看来,李继伟和卡迪的上述最新研究方式,无疑为公众应对流感提供了另一条有效工具,它能够使我们提前预测到某个地区流感即将到来。如果将这些预测同谷歌流感趋势、CDC的相应预测进行对比,无疑也将是件很有意思的事情。

全球每年约10%~15%的人群会患上流感,受感染人群约5000万人,死亡人数约50万。这可不是个小数字。如果我们能够尽早提前预测到流感即将爆发,无疑将使全球公众都将受益:政府和医疗机构提前拿出应对措施,就能挽救大量生命。