1966年,美国交通事故死亡人数高达5万人,达到了历史的峰值。美国国会要求联邦政府立即建立一套有效的交通事故记录系统,分析确定交通事故及其造成死亡的原因,以期望找到最能够避免事故的交通规划方式。
这在当时看起来仅仅是一种前途未知的尝试,因为一起交通事故的数据可能是完全独立且无序的,一年的数据、一个地区的数据也看不出太多章法。然而随着跨年度、跨地区的数据越来越多,群体的行为特点就会在数据上呈现一种“秩序、关联、稳定”,更多规律就会浮出水面。现在,美国的汽车保有量是中国的3倍,而交通事故死亡人数仅仅是中国的一半。
这种做法最符合现在的大数据含义,而且也是人类最早在大数据方面获得的甜头。
英特尔中国研究院首席工程师吴甘沙说,大数据并不仅仅是大量的数据,而是在看似无序和不关联的数据之间找到某种关联,发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之未做、前人所不能的机会,也正是大数据最主要的特点。
“比如,你如果知道人们在晨洗之后多长时间会走出家门,再从供水系统的数据中找到用水的高峰时间,就能准确地预测到今天早晨哪个区域哪个时间路上的交通最拥挤,同样可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量来估计出堵车时点。”他说。
“数”中自有黄金屋
缔元信是一家网络监测公司,其主要业务是为互联网站的站长提供访问量统计报告。自2008年开始,他们致力于开发一套数据分析系统,希望通过关键词设置分析人们在互联网上浏览的内容,以获知他们的审美取向和使用偏好,进而知道他们正在成为哪种商品的潜在购买者。
“这项工作并不像它看起来那样容易。”秦雯说,“因为你并非要刻意地监视某一个人,全中国有5亿多网民,每天他们要在网页上点击上百亿次鼠标,每一次鼠目标点击对你的监测服务器来说都是一样的,它并不知道这是坐在高档写字楼里的公司白领还是书房里的中学生操作了这一次点击。”
这项服务现在正变得炙手可热,无论是在淘宝、京东还是亚马逊,你都会在打开网页的的同时,看到那些你似乎很需要的广告,而并非过去那样毫无指向的信息。
“尽管如此,无论是缔元信还是淘宝或者美国的亚马逊,现在对于大数据的开发都非常初级,大数据的开发远远不是为了做广告。”秦雯说:“大数据是人类刚刚获得的一个富矿,而我们目前只开发了它表面的一小层。”
的确有更多的人在利用这一思路淘金。保罗?霍廷是英国的一名80后外汇交易员,他从三位信息学教授那里获得灵感,认为Twitter上每天两亿多条信息能直接反映人们的情绪,而这种情绪将是宏观经济走向的晴雨表。
霍廷依据分析结果决定如何处理手中数以百万美元计的股票。原则很简单:如果所有人似乎都高兴,买入;如果大家的焦虑情绪上升,抛售。随后他推出了一款利用Twitter关键词检索来预测公众情绪进而判断股票走势的对冲基金DerwentCapital,并大胆承诺,公司推出的交易策略可以获得的年回报率高达15~20%。结果表明,人们在网上的情绪变化会在2~6天后影响到指数的变化,霍廷的公司今年第一季度获得7%的收益率。
在国家层面,2012年,尚在经济危机阴影下的英国政府就拨款10万英镑,并邀请英国股市排名前100的大企业共同出资,建立一个国家级的公开数据研究组织。英国内阁部长弗朗西斯?莫德证实说,其实英国政府早有意带头建立“英国数据银行”,政府想算清楚究竟这个国家或政府创造了什么。他表示,英国不只是要成为世界首个完全公布政府数据的国家,英国还应该成为一个国际榜样,去探索那些公开数据在商业创新和刺激经济增长方面的潜力。