手机版
1 1 1

《智慧政府:大数据治国时代的来临》

共产党员网 打印 纠错
微信扫一扫 ×
收听本文 00:00/00:00

   全景式观察与盲人摸象

  过去,随机抽样一直被公认为一种最有效率的数据搜集方法。样本选择的科学性比样本数量更重要,统计学家这样告诉我们如何精确预测。抽样的目的是用最少的数据得到最准确的信息,抽样的科学程度(尤其是样本的随机性和代表性)对于统计结果的准确性至关重要。在传统数据思维下,寻找更大的样本量根本没有必要。因为当样本量达到一定程度后,我们从新增的个体样本上获得的信息只会越来越少,呈现出边际效应递减的规律。因此,并不是数据越大越好。

  然而,统计学家们已经开始抱怨抽样方法的缺陷:它注定让我们无法观察事物全面的细节,抽样结果会受到主观偏见的影响,有如盲人摸象。有人说,用抽样的方法分析整体人口状况时,正确率能达到97%,但也许正是那被忽略的3%会完全颠覆已有的结论,尤其是当我们想了解更深层次的微观情况时,抽样方法就有些爱莫能助了。例如,1 000人看似是一个比较大的样本,但如果将研究对象细分至一线城市大龄单身女性,符合条件的可能只有10多个样本。从这样小规模的数据中,无法分析出任何有意义的结论。

  即便不抽样,动员大量人力、物力进行普查,也是在事先确定调研问题和被访问人群后才开始执行的。从有限的问卷题目中,注定只能看到事物的某几个方面,无法获得更加客观和深入的信息。

  以前由于缺乏存储和处理全量数据的工具,我们通常把这种无奈看作理所当然。在大数据时代,“样本=全体”的数据处理模式已经成为可能。我们可以分析更多的数据,而不再依赖于随机抽样。

  谷歌可以提供谷歌流感趋势的原因就在于它几乎覆盖了7成以上的北美网络搜索市场,而在这些数据中,已经完全没有必要抽样调查这些数据:所有的记录都在数据仓库躺着等待人们挖掘和分析。

  大数据导航的自动驾驶汽车能够实现360度全方位感知,安装在驾驶室内的摄像头会识别交通指示牌和信号灯,轮胎附近的传感器可以根据速度和方位推算汽车当前所在的位置,而连接GPS和谷歌地图的路线系统可以让它找到通往目的地的最快捷路线。

  纽约警方通过分析案件与发薪日、体育赛事、天气变化、假日等变量的相关性,预测最可能发生罪案的“热点”地区,并预先在这些地区部署警力。无论是从时间纵向上来看,还是部门间数据联动的横向上来看,这种数据搜集视野都呈现出全景式的特点,从而更加富有生命力。

发布时间:2014年06月09日 16:52 来源:中信出版社 编辑:阮玉秀 打印