手机版
1 1 1

《智慧政府:大数据治国时代的来临》

共产党员网 打印 纠错
微信扫一扫 ×
收听本文 00:00/00:00

   拥抱数据的杂乱

  执著于精确性是信息缺乏时代的产物。传统的数据分析师很难容忍数据中存在的错误和噪声,他们会花大量的精力让数据更加精确和标准,提升基础数据的精准度以降低分析结果的错误概率。

  当我们测量事物的能力受限时,关注最重要的事情和获取最精确的结果是可取的。如果购买者不知道牛群里有 80头牛还是 100头牛,那么交易就无法进行。因为需要分析的数据很少,所以我们必须尽可能精准地量化我们的记录。在大数据时代,很多时候,追求精确度已经变得不可行,甚至不受欢迎了。例如,一个小商店在晚上打烊时要把收银台里的每分钱都数清楚,但是我们不会,也不可能用“分”这个单位精确计算国民生产总值。

  曾经我们大部分的习惯都建立在一个预设立场上,即用来进行决策的信息必须是少量、精确且至关重要的。然而,当数据量变大、数据处理速度加快且数据变得不那么精确时,这些预设立场都不复存在了。随着互联网的发展,特别是社交媒体、电子商务以及智慧终端的快速发展,数量巨大的数据碎片时刻都在产生。这些数据来自不同的渠道、不同的领域,有着不同的格式与标准。数据的杂乱变得不可避免,如果只是执迷于数据的精确性,你可能会感到无所适从。

  在大数据时代,我们完全可以用一种更轻松的心态看待杂乱性,并接受它带来的精确性问题。试想,如果杂质是偶然的,它一定会被更多的正确数据淹没;如果噪声存在规律,足够多的数据可以发现这个规律,从而过滤噪声;如果误差是内在的必然性,更多样化的数据采集和信息融合也必然能纠正误差。例如,GPS在监测地理位置时可能有几十米的误差,但加上了地图数据可以保证导航准确性。基于单个摄像头的车牌抓取和识别可能受光照条件、空气能见度、车辆运行速度和遮挡情况的影响,但获得的部分信息(不完整车牌和车辆特征),可以与其他摄像头获取的信息进行对照和相互印证。现代技术让我们能够对庞杂的数据进行快速高效的整理,帮助我们做出更好的决策。

  大数据所依仗的就是数据量大。要想获得大数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。接受数据的不完美和不精准,承认它们的杂乱,我们才能够更好地进行预测,更好地认识和理解世界万物。一旦我们能正确地看待各类数据存在的价值,我们就会发现完全不必为数据的杂乱烦恼,拥抱数据的杂乱让我们进一步接近事实的真相,更加全面地认识这个世界。这就是大数据最美的地方。

  基于数据发现的五种知识类型

  (1)广义型知识:根据数据的微观特性发现其表征的、带有普遍性的、高层次概念的、中观或宏观的知识。

  (2)分类型知识:反映同类事物共同性质的特征型知识和不同事物之间差异型特征知识。用于反映数据的汇聚模式或根据对象的属性区分其所属类别。

  (3)关联型知识:反映一个事件和其他事件之间依赖或关联的知识,又称依赖关系,这类知识可用于数据库中的归一化、查询优化等。

  (4)预测型知识:通过时间序列型数据,由历史的和当前的数据预测未来的情况,它实际上是一种以时间为关键属性的关联知识。

  (5)偏差型知识:通过分析标准类以外的特例、数据聚类外的离群值、实际观测值和系统预测值间的显著差别,对差异和极端特例进行描述。

发布时间:2014年06月09日 16:52 来源:中信出版社 编辑:阮玉秀 打印