手机版
1 1 1

《智慧政府:大数据治国时代的来临》

共产党员网 打印 纠错
微信扫一扫 ×
收听本文 00:00/00:00

智慧政府:大数据治国时代的来临

  【基本信息】

  作者:徐继华 冯启娜 陈贞汝 著

  出版社:中信出版社

  出版日期:2014年2月

  【内容简介】

  现在,人类社会已经进入了一个全新的历史阶段——大数据时代。人成为一切数据足迹的总和,人们的一切行为都以数据的形式被记录、被储存、被处理。

  作为最大的数据占有者,政府掌握着社会方方面面的数据,但各部门间的数据没有进行高效整合,给政府管理和民众生活带来了极大不便。

  十八届三中全会将“推荐国家治理的体系和治理能力现代化”列为全面深化改革的总目标。而如何达成目标,本书给出了符合时代发展的答案。本书首次将大数据与国家治理紧密结合,主张政府管理者应该具备大数据思维。通过对数据的整理与分析,政府管理者可预测民众的下一步公共服务需求,进而提供更加智能与高效率的管理和服务,促进国家和社会发展。

  本书认为,大数据不仅是一种海量的数据状态及其相应的数据处理技术,更是一种思维方式、一项重要的基础设施、一个影响整个国家和社会运行的基础性社会制度。它是治理交通拥堵、雾霾、看病难、食品安全等“城市病”的利器,更将为政府打开了解社情民意的政策窗口,打造平台的政府、服务导向的政府、开放的政府,即智慧政府。本书更在论述西方发达国家实施大数据战略的相关经验的同时,介绍了大量发展中国家的有效做法,更引入了网格化社会管理等具有中国特色的本土实践,使本书更具可操作性和借鉴意义。

  作者指出,大数据并不仅是一场技术变革,更意味着一场社会变革,而这种社会变革又伴随并呼唤着公共管理与公共服务领域的变革。

  大数据治国时代已悄然来临,一场改变世界格局和人类生活的大数据变革即将引爆。

  【作者简介】

  徐继华:中国人民大学经济学博士。现在某党政机关就职。有新闻、法律、经济等多学科背景,曾参著《网络时代的中国文化精神》、《传媒经济学》等畅销书籍,在《人民日报》、《光明日报》、《经济日报》、《科技日报》、《宏观经济管理》等国家级核心刊物发表文章十余篇,累计出版各类作品20多万字。

  冯启娜:社会学研究者,任职于中国人民大学。研究旨趣为后工业社会的社会学、公共管理学前沿议题,关注现代科技对人类社会结构、生活形态及组织运行的影响。目前,为中国人民大学全国干部教育培训基地办公室成员,参与中央和国家机关司局级干部自主选学的课程开发和项目管理工作。

  陈贞汝:中国人民大学管理学硕士,任职于中国某运营商。关注移动互联网、电子商务、用户开放式创新等社会前沿领域。有统计、管理、社会学等多学科背景。曾参与多项部级科技创新行业研究项目。主要研究4G时代下基于大数据的创新服务模式。

  目录

  推荐序一 大数据时代的国家治理

  推荐序二 大数据,政府管理改革的新机遇

  推荐序三 大数据助推公共管理转型

  前言 智慧政府:大数据引领国家治理大变革

  第一章 大数据的一天

  工作的白天

  生活的夜晚

  第二章 大数据:一个新的政府治理命题

  大数据时代来临

  大数据

  大知识

  大价值

  大数据浪潮中的政府

  大数据政府的大应用

  政府应成为大数据时代的领跑者

  大数据推动管理的现代化转型

  中国的大数据实践

  作为基础设施的大数据

  作为基础性制度的大数据

  政府大数据观

  从拍脑袋到大数据决策

  从行政主导到以人为本的服务型政府

  第三章 万千气象:感受数据之大

  什么是大数据

  大数据与数据有何不同

  打开数据利用的想象空间

  第三次工业革命的战略资源

  大数据的特征

  大容量

  多样性

  快速度

  真实性

  数据大爆炸

  数字数据的增长

  非结构化数据的增长

  信息时代的三大定律

  摩尔定律

  吉尔德定律

  麦特卡尔夫定律

  第四章 思维变革:大数据主义来袭

  一切皆可量化

  我们的数字足迹

  发现未知的数据世界

  万物皆有关联

  追踪“蝴蝶效应”

  “是什么”比“为什么”更重要

  预测:大数据的核心

  庞杂赢得胜利

  全景式观察与盲人摸象

  拥抱数据的杂乱

  数中自有黄金屋

  把数据负担变成数据红利

  大象与蚂蚁共同起舞

  第五章 多算胜:驾驭大数据

  数据采集:遍布全球的触角

  业务数据

  调查数据

  环境数据

  用户生成数据

  数据存储:海量吞吐的威力

  大数据量:考验存储能力

  即时记录:解决延迟问题

  信息防护:保证数据安全

  提升效率:降低存储成本

  数据分析:无序中建立有序

  “淘金”路上的数据清洗

  大数据分析呼唤新技术

  数据挖掘的6个阶段

  数据呈现,信息可视化之美

  一图胜千言

  数据如此美丽

  描绘大数据

  第六章 智慧政府:大数据应用面面观

  快速反应的公共安全管理

  多渠道数据采集:高效打击犯罪

  快速反应:分钟的黄金救援

  联合行动:跨部门数据共享

  数据开放:为食品安全护航

  数据化调控的公共交通

  畅通无阻:大数据式治堵

  全景式调控:数据化的智能交通系统

  出租车管理:打造城市的流动名片

  以人为本的综合社会管理

  社区网格:中国特色的社会管理

  创新服务:一张通行证搞定全部政务

  以人为本:“移民城市”的出租屋治理

  智慧监测下的公共卫生与医疗

  实时监测:将流行病爆发控制在萌芽期

  全面呈现:切断危机传播路径

  智慧医疗:破解“看病难”问题

  精准识别:医疗欺诈难逃大数据法眼

  创意与实用兼备的环境保护

  优美宜居:数据驱动的绿色城市

  虚拟河流:智慧的水污染治理

  污染地图:督促企业行动起来

  第七章 智慧城市:立体的大数据生态系统

  智慧城市让生活更美好

  抗击“城市病”

  城市的智慧化演进

  跃动全球的智慧城市实践

  各国智慧城市:高招各有不同

  中国智慧城市:新型城镇化风向标

  智慧城市的生长之道

  智慧城市的四大法宝

  物联网:智慧城市的感觉器官

  移动互联网:编织城市数据网

  飘在城市上空的“云”

  第八章 组合拳:让大数据全面落地

  打造政府信息化航母

  盘活数据资产

  消除信息孤岛

  建立政府云平台

  让听得见炮火的人决策

  用数据说话,让数据做主

  数据驱动的管理模式

  开放公共数据

  席卷全球的数据开放运动

  公共资料,增值再用

  数据如何开放

  与“小伙伴们”共建新型政府

  找最聪明的人为你工作

  公民参与政府创新

  缔造GBCP和谐三角

  全面实施大数据战略

  把大数据上升为国家战略

  大数据产业引爆新增长点

  数据科学家的崛起

  第九章 问题与挑战

  数据质量:清醒认识数据的缺陷

  数据造假:威胁数据质量的生命线

  错误发现:数据呈现与解读的谬误

  数据盲点:关注信息时代的缺席者

  信息安全:个人隐私与国家安全的威胁

  “棱镜门”事件:山姆大叔在窥探你

  隐私保护:寻找新的制衡机制

  数据独裁:呼唤政府对公民权的救济

  群体歧视:无法抗争的社会标签

  行为预测:未来罪责判定的隐忧

  无法删除:时间维度上的圆形监狱

  公民力量:指向政府的达摩克利斯之剑

  信息公开:倒逼政府行为的变革

  网络问政:考验政府对民意的回应

  网络监督:大数据时代的技术反腐

  庞大能耗:数据中心背后的环境代价

  后记

  致谢

  参考文献

  第一章 大数据的一天

  工作的白天

  早上7点,你在浪漫悦耳的G大调钢琴曲中醒来,又是一个崭新的早晨。床头那个猫头鹰造型的闹钟传出的旋律让起床变成一件轻松开心的事情。

  这个闹钟是妻子从大数据家居展卖会上淘回来的小玩意。每天,闹钟的铃声都会根据你的心情自动切换。很多年前,人们也许难以想象,像心情这样难以捉摸的东西如何不用自己表达就能被外界所捕捉。然而,这个猫头鹰却能通过分析前一天你与朋友的网上聊天内容,或是对你最近发布的微博状态进行情绪计算,猜测出你这段时间的喜怒哀乐和音乐偏好。昨天一位朋友在朋友圈里上传了一段贝多芬钢琴曲,优雅动听,你回复了一个“赞”,所以今天早上听到这段经典的G大调便不足为奇了。

  你哼着音乐起床。房间感知到了你起床的信号,窗帘徐徐拉开,金色的阳光洒进卧室。咖啡的香味从厨房飘来,厨房电器刚刚自动做好了一顿美味的早餐。

  你一边吃着早餐,一边看着电视新闻。电视节目都是个性化定制、智能推送的,现在正在报道的是流感爆发。主播对着动态地图指出了当前受流感影响的地区,分析了流感的传播路径、未来发展趋势,就像播报天气一样。在地图上,公共卫生机构抗击流感的部署一目了然。让人放心的是,因为控制及时,这次流感并没有带来大范围的不良影响。

  另一则新闻是关于台风袭击的情况以及救灾工作的进展。通过综合数据平台,气象、民政、交警和医院等几十个部门形成了联动机制,大大缩短了救援时间。一些渔民被台风困在了海上,减灾办通过数据定位,帮助他们找到了最近的避难港口。“幸亏我们现在有这些技术手段,不然多耽搁一分钟,受灾地区民众的危险便多增加一分。”你不由得发出这样的感慨。

  电视提醒你,该出发上班了。于是你整理好公文包,吻了一下熟睡中的妻子和孩子的额头,走出了家门。

  你按下手机上的一个按钮,新买的汽车从车库徐徐驶出,开到了你的眼前。这是一辆自动驾驶的汽车,是你升职后给自己的奖赏。刚买这辆车时,你的父亲还有些担心,怕不够安全。后来才发现,这种担心完全没有必要。与人类驾驶相比,这辆自动驾驶的汽车不仅可以探测到360度范围内的一切事物,包括它们的距离、速度和温度,而且知道如何避开其他司机的视觉盲点,预知各个方向车辆的情况。你开玩笑地跟父亲说:“这辆汽车比开过很多年车的老司机还要可靠,因为它不会疲劳、酒驾抑或是赌气发火。”

  汽车驶出小区的大门,经过一个路口时,它忽然停了下来,原来它探测到20米外有一个滚动的皮球。接着便冲出一个小孩,丝毫没有意识到可能面临的危险。待确认小孩离开车道后,汽车又平稳地启动了。

  很多年前,你还是孩子时,父亲买了家里的第一辆小汽车。那时经常出现交通拥堵和剐蹭事故,为了上班不迟到,至少需要提前一个小时出发。现在,这辆自动驾驶的汽车在还没有上路时就已根据从家到公司这段路程上所有的道路状况、红绿灯时间和历史数据,提前规划好了一条最省时的路线。它贴心地提醒你,今天的车程预计为22分钟。它甚至还能与其他自动驾驶的汽车“打招呼”,与交通信号灯“交谈”,使你不会把时间浪费在堵车和等红绿灯上。

  8点半,你准时到达了非凡公司。这是一家信用评级公司,你作为公司引进的首位数据科学家,已任职5年。

  5年前,非凡公司的主要业务是帮助银行完善信用评级系统。过去,大多数银行对申请人进行信用评级的标准比较单一,无法对申请人做出全面评估。为了解决传统评级方式的缺陷,作为部门骨干的你与同事们通宵达旦地研究,希望建立一个全面的大数据信用评级模型。你们从各渠道搜集关于申请者的信息,例如,社交网站上的数据,用于对那些很少或者根本没有信用记录的人进行评估,还有在信用卡网站上停留的时间可以推测一个人的性格和还款诚意。你们对这些海量信息进行分析,得出了超过7万个可对申请人行为做出测量的指标,而整个信用评级过程在5秒内就能完成。

  这一信用评级模型的研发和应用让非凡公司一举成名,而你也因为在这一过程中的优秀表现被提拔为部门经理。

  你走进办公室,计算机桌面上已经自动筛选出了需要今天处理的信息。它就像一个贴心的秘书,使你的工作井井有条,同时又能与公司的同事、与世界各地的合作伙伴保持密切的合作。

  在计算机上,你最常登录的页面不是公司主页,而是政府的数据开放网站,因为你们公司的很多预测模型都需要从这里下载数据。这个网站收录了从人口普查地图到生物物种保护等五花八门的数据集,甚至还公布了这些数据集的后设资料以及处理所需的软件工具,所有人都可以免费下载使用。一份由30万份行政区地图组成,精确到道路、建筑物、水系、行政区界线等详细资料的中国地图,是网站上被下载得最多的资料之一。你曾经在这个地图的基础上做了一款手机应用程序,实时展示本市各个社区的房价情况。这个应用程序的技术含量并不高,你所做的只不过是把不同来源的数据聚合到一起而已。但就是这个简单的应用程序在发布后广受好评,一度位列全市手机应用下载前10名。这件事情让你相当有成就感。

  今天,你需要集中精力准备一个发言稿。因为下午你需要在公司的高层会议上汇报两个政府委托的大数据项目方案:一个是社会保障反欺诈系统,通过异常数据分析,自动识别冒领养老金、骗取医药费用、套取保险基金等欺诈行为,保障基金安全,管好、用好百姓的“养命钱”、“救命钱”;另一个是环境数据群体采集系统,通过在汽车车轮上安装传感器 ,记录城市各角落的路况、空气质量及噪声、温度、湿度等信息,实现城市环境的移动监控。

  在会上,你用动态的信息可视化图表展示自己的观点,随时调用各种数据支撑方案的论证。发言的最后,你激动地总结道:“大数据能帮助我们和我们的客户获得对于未来更加智慧的预测,而只有做到预见未来,才能遇见未来!”公司领导肯定了你的计划和设想,鼓励你尽快推广大数据在各个项目中的应用,以提升公司的竞争力。看来,接下来半年的大数据探索工作将充满挑战和乐趣。

  2010年,联合国哥本哈根世界气候大会前后,美国麻省理工学院感应化城市实验室的学生设计了一款自行车辅助工具-哥本哈根车轮。车轮内置一些检测装置,可以对路况、一氧化碳、氮氧化物及噪声、温度、湿度等信息进行检测,全球定位系统装置帮助记录位置信息。通过蓝牙模块与智能手机关联,你可以参考这些实时数据调整自己的出行计划。更有意义的是,你还可以将这些数据上传,帮助建立一个庞大的环境状况数据库,绘制城市环境地图。车轮内还包含一个发动机、多组电池和一个内部齿轮系统,刹车时可存储能量,上坡或者行驶疲劳时可将存储的动能释放出来帮助骑行。

  生活的夜晚

  一天充实的工作结束后,你终于可以放松下来,准备回家。走出公司,外面的天有些阴沉,一阵凉风夹杂着小雨滴刮了过来。你缩缩脖子,按下手机上的汽车按钮,它快速且准确地停在你面前。

  汽车行驶了一会儿,自动停在了一家超市的门口。根据你每个月的生活习惯,它计算出今天是你定期的食品采购日。把你送到了超市门口,汽车就通过大数据导航自动驶向了地下停车场。下班时间,来超市购物的人比较多,但是你丝毫不用担心没有停车位,或者车位太远、往返停车场需要走很远的路。

  超市货架上的食品整齐摆放着,井然有序。你逛有机食品区时看到了一种新出的杂粮麦片,看上去很有营养。你用手机扫描了食品包装上的二维码,手机屏幕上便出现了麦片的产地、成分、是否有过食品安全召回记录和其他购买者的评价信息,你甚至发现了隔壁邻居对这款产品的评价:“我们家小孩很喜欢吃。”你会心地笑了笑,果断将其放进购物篮。快速采购完这个月家庭所需食品后,按照多年以前的规矩,你该走到收银台前结账,但在今天的超市早已没有了结账柜台。将商品放入购物篮的一刹那,传感器便能把商品的价格和结算信息传输到你的手机上,生成一个订单。你确认订单后,便可在手机上完成支付。

  从超市回家的途中,在驶过一条社区街道时,你忽然发现头顶有两三盏路灯忽明忽暗地闪烁着,你猜可能是出了故障。你拿起手机,拍了张路灯的照片,并将其上传到城市公共平台-这是一个供市民反馈问题的应用程序。它自动记录你拍照的位置,并将路灯受损的信息报告给了市政设施维修公司。几分钟后,你收到了一条短信,是市建设局发来的,他们告诉你路灯明天就会修好,感谢你作为热心市民提供了这条线索。

  到家已是晚上7点,妻子早已接孩子放学回来,准备好了一顿丰盛可口的晚餐。饭桌上,妻子谈到了今天去行政服务大厅办事的经历。“我们单位计划到境外投资,听同事说以前审批立项要盖70多个章、跑好几个月才能办下来,今天我跑一趟就全办好了。你说我厉不厉害?”妻子一脸微笑地看着你,向你讨要表扬。你假装不解风情地说:“厉害的不是你,是我们数据科学家。没有我们设计的跨部门协作系统,你照样要一个部门一个部门地盖章;没有我们设计的在线申请系统,仅填审批表就够你忙活好一阵了。”

  吃完饭,外面的风似乎停了下来。你决定带上妻子和孩子去小区附近的玫瑰公园散步和锻炼,这是每天必需的项目。去玫瑰公园锻炼的人们手上都戴着一条智能腕带,这条腕带除了作为进出公园和健身房的凭证外,还可以记录佩戴者每天锻炼的时间和散步的里程。然而它的作用还不止于此,它最强大的功能是将佩戴者在运动前的心跳、血压等信息上传到一个公共医疗数据库中,通过计算,它会准确提醒你的身体状况和适合的运动幅度:蓝色是需要休息,减少运动;绿色是适当的舒缓运动,如散步和打乒乓球;红色是适合游泳、网球和健身等剧烈的运动。这条腕带的普及是一项全民健身计划的重要内容,通过定时的运动提醒和身体状况分析,有助于你和家人的身体处于最健康的状态。

  夜色渐浓,一天即将结束。

  睡前,孩子躺在床上听你讲故事。你有感而发,没有像以往那样讲王子与公主的童话,而是给他讲了一个你小时候的故事。他听完将信将疑,很难相信你年轻时曾经为了进入一所理想的学校,参加各种不同的考试,填写各类成绩单、获奖证明和家庭状况表,之后才能拿到录取通知书。今天的孩子们就幸福多了,他们不再需要为中考或者高考而苦恼。因为数据库记录了孩子多方面的潜在能力和性格特点,会定制适合其发展的教育培训课程,推荐适合的学校。

  第二章大数据:一个新的政府治理命题

  大数据时代来临

  站在今天的角度观察,人类社会的信息化进程其实可以划分为三个时代,即计算机时代、互联网时代和大数据时代。

  到20世纪90年代中期,发达国家已经基本度过了计算机时代。计算机的普及,解决了信息的机器可读化和数据的可计算化问题。目前,发达国家和部分发展中国家也基本走完了互联网时代的路程。互联网的建立解决了信息传递和信息服务问题。在计算机和互联网的基础上,而今我们正步入一个全新的历史阶段-大数据时代。

  剑桥大学教授维克托·迈尔-舍恩伯格在其《大数据时代:生活、工作与思维的大变革》中写道:“大数据开启了一次重大的时代转型。就像望远镜让我们感受宇宙、显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发……未来数据将会像土地、石油和资本一样,成为经济运行中的根本性资源。”

  2013年被国外媒体称为“大数据元年”。大数据如浪潮一般席卷全世界,不仅在信息技术行业备受瞩目,更成为变革科研、商业、政府运作方式乃至人类思维方式的一个热点。

  我们可以用三个词勾勒出大数据时代的全景-大数据、大知识、大价值。

  大数据

  1969年,美国阿波罗登月舱使用的自动控制计算机内存容量只有 63KB(千字节);而如今,一部普通的苹果手机运行内存就有1GB(吉字节),是前者的6.45万倍,这还不包括16-64GB不等的存储内存。阿波罗登月舱只有一个,而仅在2013年第一季度,就销售了大约3 800万部苹果手机。人们用手机社交、购物、阅读,产生的数据量是惊人的。

  随着计算机技术全面融入组织运作和社会生活,数据正在以一种超乎想象的速度爆发式地增长。据统计,人类存储信息量增长速度是世界经济增长速度的5倍,而计算机数据处理能力增长速度则是世界经济增长速度的10倍。根据联合国的研究报告,全球的大数据存量从2005年的150EB(艾字节)增长到2010年的1 200EB,并预计将以40%的年增长率继续增长,2020年将达到2007年的44倍,平均每20个月翻一番。1 EB等于260B(字节),相当于13亿中国人人手一本500页的书加起来的信息量,5EB则相当于3.7万个美国国会图书馆的信息量。

  数据大爆炸的来源有很多,它既来自新兴的物联网和移动互联网,也来自传统互联网以及广大经济社会活动领域。例如,每个人的日常生活都在被数据化,我们浏览网页、登录社交网络、使用移动通信工具、进行在线交易等,留下了各式各样的数字足迹;在遍布全球的工业设备、汽车、电子量表和集装箱上,有数不清的数据感应器,它们实时测量并传递地点、移动、振动、温度和湿度等信息,甚至能检测出空气和水中的化学变化;政府部门在统计监测、审批备案和行政执法过程中,也积累了大量的工商登记、税收缴纳、社保缴费、交通违章等公共数据……

  大数据采集、存储、分析、可视化技术和方法的普及,使得对数量巨大、来源分散、格式众多的大数据进行分析成为可能。因此,大数据首先是一种技术进步,这种进步继而推动了人类认识世界和改造世界能力的进步,带来了大知识,创造了大价值。

  一天能产生多少数据?

  MBAonline网站发布的一张题为“互联网的一天”的信息图显示:

  每天有2 940亿封电子邮件发出,如果这些是纸质信件,在美国需要花费两年的时间处理。

  每天有200万篇博客文章在网上发布,这些文章相当于美国《时代周刊》刊发770年的总量。

  每天有2.5亿张照片上传至社交网站脸谱网,如果把它们都打印出来,摞在一起有80个埃菲尔铁塔那么高。

  每天有86.4万小时的视频被上传至视频网站Youtube,不间断播放则需98年。

  每天有1.87亿个小时的音乐会在流媒体音乐网站Pandora上播放,如果一台计算机从公元元年就开始播放这些音乐会,到现在还没完没了地接着放。

  累积起来,互联网一天之内产生的信息总量可以装满1.68亿张数字多功能光盘。

  大知识

  大数据能为人类带来大知识,即通过对海量数据进行分析,以一种前所未有的方式获得深刻洞见。例如,2009年甲型H1N1流感爆发时,与习惯性滞后的官方数据相比,谷歌成为一个更有效、更及时的指示标。他们通过分析5 000万条美国人最频繁检索的词条,例如“哪些是治疗咳嗽和发热的药物”,建立了4.5亿个数学模型,并与美国疾控中心在2003-2008年季节性流感传播时期的数据进行比较,提前两周预测出流感的爆发时间和传播路径。这种工作方式不需要分发口腔试纸和联系医院,它是建立在大数据的基础之上的。基于这样的技术理念和数据储备,下一次流感来袭时,世界将拥有一种更好的预测工具预防流感的传播。

  人们通过大数据获得的知识更快速、更准确、更便捷,而这些在传统的数据利用思维和技术的基础上是难以完成的。例如,个人收入对于银行放贷、社会保障等机构而言是一项关键数据。然而,收入又是一个比较敏感的话题,要调查个人收入,不仅过程烦琐、成本较高,而且还存在瞒报的可能。著名征信机构益百利有一项服务,即通过分析信用卡历史记录和美国国税局的匿名税收数据,对个人的收入状况进行较为精准的预测,其预测结果售价不足1美元,而通过传统的办法证明一个人的收入状况要花费10美元左右。

  大数据使得组织决策将越来越依赖于数据和分析,而非经验和直觉。迈克尔·刘易斯于2003年出版的《点球成金》中讲述了棒球统计学的一个真实案例。该书的主角比利·比恩是一家棒球队的总经理,他在一位统计学家的帮助下,尽可能地将球员能力数据化,并以此作为衡量球员能力的唯一标准,而非基于主观经验的判断。通过这套计算机程序和数学模型,比利以有限的预算寻找那些被价值低估的球员,实现了最高的“投入产出比”,创下了美国职业棒球大联盟百年历史上的连胜20场的空前纪录。与那位统计学家相比,专业棒球星探们在挑选球员方面的精准程度相形见绌。

  大价值

  我们的日常生活会因为无处不在的大数据应用更加智能便捷。搜索引擎可以为关联网站排序;智能输入法能为用户创建个性化词典;豆瓣网为我们推荐想要看的电影和图书;微信自动推送好友信息,帮助我们建立朋友圈;电子邮箱自动过滤含有某些关键词的垃圾邮件;相亲网站通过计算用户的性格、教育背景、职业等匹配程度,提高男女配对成功的概率。

  从商业、科技领域到医疗、政府、教育、经济、人文、社会领域,大数据越来越显示出非凡的发展潜力和广泛的应用前景。2011年5月,麦肯锡全球研究所发布了一份专门的研究报告《大数据:下一个创新、竞争和生产率的前沿》,该报告分析指出:大数据可以在任何一个行业内创造更多价值。比如,零售业可以利用大数据增加60%的运营利润;如果医疗业全面使用大数据,仅在美国,每年能多创造3 000亿美元的价值,同时减少8%的医疗支出;如果运用到公共领域,欧洲政府每年可以减少1 000亿欧元的开支,同时可以有效避免偷税漏税行为;服务业如果抓住大数据机会,利用个人行为信息刺激消费,可以带来6 000亿美元的营业额。

  大数据的创新运用和实时分析还被认为能够推动失业、饥饿和疾病爆发等社会问题的解决,对于发展中国家的发展而言尤其具有特殊意义。近些年全球粮食、能源和金融危机告诉人们,尽管当今世界信息技术非常发达,但决策者得到有用信息并及时采取行动以保护弱势群体的速度却总是慢于危机的出现。为了改变这种状况,2009年,联合国启动“全球脉动”计划,旨在为各国提供实时数据分析,以便更准确地了解人类福利状况,降低全球性危机对人类生活的影响。与传统的统计仅能有效跟踪中长期发展趋势相比,“全球脉动”计划旨在发现新的数字化指标,实时了解情况,并及时为决策者提供反馈。联合国秘书长潘基文说:“我们事实上是在一个实时信息的海洋中游泳,手机和数据服务的爆炸式增长意味着世界各地的人在为全球知识库做出海量的信息贡献。他们还通过交流、购买、出售和其他日常活动以免费的方式提供信息。私营部门正在研究这些新数据以便实时了解顾客。联合国也必须为自己的服务对象(全世界那些失去工作、生病、难以养活自己和家人的人)做同样的事情。”

  全球知名咨询公司高德纳报告称,2012年全球各大企业用于大数据业务的投资额达43亿美元,预计2013年将增至340亿美元。国际数据公司报告称,中国大数据建设相关的软硬件服务2011年市场规模约7 760万美元,2016年将超过6亿美元,未来5年的复合增长率达51.4%,市场规模增长近7倍。

  《大数据:正在到来的数据革命》的作者涂子沛深刻地指出,大数据之大,不仅在于其容量之大,而是通过数据的交换、整合和分析,发现新知识,创造新价值,带来大知识、大科技、大利润和大发展。

  是的,我们已经走到振奋人心的历史关口。让我们抓住这场历史机遇,以引领者的姿态迎接大数据时代的到来。

  大数据浪潮中的政府

  大数据时代才刚刚开始,然而可以断言的是,我们的生活方式、工作方式、组织方式与社会形态都将因它发生深刻的改变。正如《哈佛商业评论》所称,大数据本质上是“一场管理革命”。它不仅是一场技术变革,更意味着一场社会变革,而这种社会变革又伴随并呼唤着公共管理与公共服务领域的变革。

  大数据政府的5大应用

  在西班牙首都马德里,整合警察、消防、医疗系统,使救援时间大幅度缩短,巡逻队、消防车、救护车能够在8分钟内到达81%的突发事件现场;在新加坡,智能交通综合信息管理平台在预测交通流速和流量方面有高达85%的准确率,能通过有效的引导和干预,显著提升高峰时段的车辆通行效率;在苏州市,覆盖城乡的信息化防控网络,在警力与人口配比不足万分之十的情况下,使打击处理案件数、刑拘转捕率、技术支撑率均为全省最高,实现了“以十抵万”的办案效率(这些案例将在本书第六章予以详细介绍)。

  在公共管理领域,国内外一些先行者已经在运用大数据,通过多渠道的数据采集和快速综合的数据处理,增强治理社会的能力,实现政府公共服务的技术创新、管理创新和服务模式创新。大数据在公共管理领域的应用不仅使传统难题迎刃而解,更成为新时期应对新挑战、解决新问题的必然选择。

  利用大数据治国,美国政府早已先行一步。奥巴马认为,数据在未来将是领地权、领海权、领空权之外的另一种国家核心资产。美国白宫科技政策办公室在2012年3月发布《大数据研究和发展计划》,同时组建大数据高级指导小组,以协调政府在大数据领域的两亿多美元投资,这标志着美国把大数据提高到国家战略层面,形成全体动员的格局。

  根据麦肯锡的报告,大数据技术可为欧盟23个最大的政府公共部门管理活动的成本提供15%-20%的下降空间,在未来10年,每年创造1 500亿-3 000亿欧元的价值,并将公共部门的预计效率提高0.5个百分点。

  对各个国家地区大数据实践的研究表明,大数据的应用可以从5个方面提高公共管理水平。

  一是实现信息透明和共享,使外部利益相关者(比如公民和企业)和内部利益相关者(比如政府雇员和政府机构)都能提高自身的工作效率,产生积极的经济社会综合效益。在上海,自2006年起,中国人民银行上海总部公开金融信息后,催生了一批金融信息咨询服务公司,其中有上海联和金融信息服务有限公司等5家上市公司,拉动了十几万人的就业。在北京,交通管理部门公开提供违章信息,也催生了一批提供专业交通信息服务的互联网公司,它们向用户提供免费服务,并获得了可观的广告收入。

  二是通过评估公共部门的绩效,增强内部竞争,激励工作表现,提高公共建设效率,提升行政服务质量,降低政府的管理成本。例如,荷兰政府推出了一项名为数字三角洲的工程,通过协调环境部、税务部门和国家研究所三方的财力、人力和物力,研究如何利用大数据预测,改变防洪策略以及整个荷兰水资源系统的管理工作。对比传统的水资源建设项目,这种合作组合预计可以节省高达15%的荷兰年度水资源管理预算。

  三是通过人口细分和定制政策,增强公共服务的针对性,提高工作效率和公众满意度,减少开支。在传统公共管理中,公共部门倾向于为所有公民提供相同的服务。实际上,公众往往具有非常多元化的个性化需求。德国联邦劳工局对大量的失业人员的失业情况、干预手段和重新就业等历史数据进行分析,使得其能够区别不同类别的失业群体采取有针对性的手段进行失业干预,大大提高了公共服务提供的效率。该做法使得该局能够在每年减少100亿欧元相关支出的情况下,减少失业人员平均再就业所需时间,大大改善了失业人员的求职体验。

  四是用政务智能替代或辅助人工决策,在纷繁复杂的数据中自动识别出不一致、错误和虚假的信息,减少出错成本和福利管理中的诈骗,缩小税收缺口。美国邮政署的计算机系统能够自动扫描邮件的相关数据(存放位置、派送路线、重量和体积等信息),通过与数据库中近4 000亿条数据的比较,甄别出“邮资欺诈”的邮件。扫描一封邮件只需要50-100毫秒。一旦检测出了异常,比如邮资不足或者邮票重复使用等情况,系统就会对信件实施实时拦截,再由分拣人员对其进行特殊处理。有趣的是,该项目竟然由此形成了威慑效应。自2006年开始实施此计划起,邮资欺诈行为大幅减少。

  五是引导公共部门内部和外部的创新,例如,商业、非营利机构、第三方通过开发出大数据工具和分析,对公共服务进行反馈,为改善现有的方案提出建议,从而为公共部门创造新的价值。作为大数据惠民的一项重要探索,北京市于2012年10月推出政府数据资源网测试版,并面向企业及个人征集应用程序。由社会力量开发的“游北京”和“爱健康”两个程序目前已经可以下载试用。前者可以查阅北京旅游景点、餐饮、促销信息和卫生间信息等,后者是北京市所有卫生保健设施的指南应用,包括诊所、医院和养老院等信息,用户可以利用这款程序定位附近的医疗设施,查看现场网络图像。

  奥巴马的大数据战略

  奥巴马依靠有效的互联网推广赢得了2008年的美国总统大选,因而被称为继“电台总统”罗斯福、“电视总统”肯尼迪后的第一位“互联网总统”。2012年,奥巴马再次赢得总统大选。在这两次竞选中,被称为“核代码”的数据分析团队都发挥了至关重要的作用。

  据奥巴马竞选团队的多位高级顾问介绍,他们在选举的两年前就一直在搜集、存储和分析选民数据,并根据这些数据分析结果制定竞选方案。在大量的数据分析基础上,他们制定出有针对性的宣传策略,在短时间内筹集到了10亿美元竞选资金;制作出拉拢“摇摆州”选民的具体数据分析模型,找到最有效的拉票方法;做到对选情了如指掌,确定奥巴马在竞选后期应当展开活动的地点。

  在奥巴马看来,数据是未来的新石油,对数据的占有和控制是领地权、领海权、领空权之外的另一种国家核心能力。他将大数据上升到国家科技战略的高度,重要性堪比当年的信息高速公路。

  2012年3月29日,美国联邦政府宣布开展《大数据研究和发展计划》,同时组建大数据高级指导小组,以协调政府在大数据领域的两亿多美元投资。根据这一计划,美国希望利用大数据技术在多个领域实现突破,包括科研教学、环境保护、工程技术、国土安全和生物医药等,具体的研发计划涉及美国国家科学基金会、美国国立卫生研究院、美国国防部、美国能源部、美国国防部高级研究计划局、美国地质勘探局6个联邦部门和机构。此举标志着,美国把应对大数据技术革命带来的机遇和挑战,提高到国家战略层面,形成了全体动员格局。

  政府应成为大数据时代的领跑者

  麦肯锡研究指出,尽管大数据能够在各个领域显著提高创新力、竞争力和产出率,但是,对于不同部门而言,大数据所带来的受益程度不同,利用大数据时所面临的困难程度也不同。如图2-1所示,与其他部门相比,政府部门在应用大数据的时候面临的困难最小,从大数据中获得的收益更多,价值潜力更大。

  政府部门能够从大数据的使用中突出受益,是因为它在数据占有方面具有天然的优势。大数据的核心是数据,再是数据技术和思维。只有先占有巨量的数据,才能从中挖掘出巨大的价值。首先,政府有专门的统计部门和干部队伍,例如,国家统计局会定期开展人口普查和经济调查,大多数部委都设有发展规划司,很多单位都设有发展规划处,而财政、交通和气象等部门其实也掌握了大量有关经济社会运行的数据;其次,政府工作关系着民生的方方面面,在日常行政过程中,也自然而然地积累了各类与社会生活息息相关的数据;最后,政府还可以根据需求,要求企业、事业单位、行业协会提供各种数据。

  早在1996年,美国联邦政府就声称信息是重要的国家资源,并认为自己是美国最大的单个信息生成、搜集、使用和发布方。以美国人口普查局为例,它作为美国人口、经济和政府方面重要统计数据的主要来源,目前拥有2 560TB(太字节)的数据,如果把这些数据全部打印出来,用4个门的文件柜来装,需要5 000万个才能装下。美国国家安全局对全美的电话进行监控,每6小时产生的数据量就相当于美国国会图书馆(世界上馆藏量最大的图书馆)所有印刷体藏书的信息总量。此外,美国财政部、美国卫生部和美国劳工部也都是数据密集型的行政管理部门,而这只是美国联邦政府数百个机构当中的几个例子。为承担这些数据的存储和维护工作,1998年,美国联邦政府共拥有432所数据中心,而到了2010年,数据中心的总数跃升到2 094所,翻了几番。1996年,美国联邦政府的年度信息技术预算是180亿美元,10多年来不断上升,到2010年,已经高达784亿美元。据报道,这些投资中的一半以上都用在了购买存储数据的硬件设备上。

  政府不仅是大数据的受益者、大数据的占有者,更在建设大数据基础设施、培育大数据产业、培养大数据人才、完善相关标准和立法等方面负有至关重要的责任。尤其在我国,政府在资源配置方面发挥着重要的作用,善于集中力量办大事,其强大影响力是带动大数据加速发展的优势所在。但是,我国政府在大数据方面才刚刚起步,要利用好大数据,我们所面临的困难不仅是技术的因素,更面临一系列的大转型。

  大数据推动管理的现代化转型

  把大数据的手段和方法引入管理领域,是实现管理现代化的有效路径,也是大数据时代的必然要求。

  在广东省,伴随着经济的迅猛发展,地方税收纳税登记户从1994年60多万户增加到2011年的285万多户,地税收入从184亿元增加到4 248亿元,而同期,地税系统干部人数仅增加了20%。海量数据的即时获取和精确分析成为摆在管理者面前的一道难题。广东省通过率先建设省级地税集中征管信息系统,使全省共用一套服务器、一套程序和一个网络。目前,广东省税收管理员系统的数据总量已达到53TB,承载了覆盖税收执法、税源管理、涉税提醒服务等100多项业务。下面以广东省地税系统为例,从6方面揭示大数据推动公共管理从传统向现代转型的趋势。

  从粗放化管理向精细化管理转型

  广东地税通过建立省级数据应用大集中平台,告别了靠手工操作和人海战术的粗放型管理模式,实现了税款自动入库、自动划解和实时监控,取得了税款的稳定快速增长。通过对海量数据的分析和比对,广东地税对每个行业、每家企业、每个税种实现了精细化分析和掌控。例如,房地产业和建筑安装业流动性大、中间环节复杂,难以监控,历来是征管难点。广东地税依托大数据平台,开发了建筑安装业和房地产行业税源控管系统。通过该系统,可实时获取房地产开发项目明细信息,包括土地使用权信息、建筑工程进度、房产销售进度、销售明细以及各阶段的税款缴纳情况等,实现了项目从产生到消亡的全过程监控。

  从单兵作战型管理向协作共享型管理转型

  过去,不同政府部门拥有自己的信息系统,但很多数据相互隔离,形成了一个个信息孤岛,大数据的一大应用就是要实现数据信息共享,最大限度地发挥数据的功效,为经济社会发展服务。广东地税借助大数据平台,积极推进第三方涉税信息共享,明确了28个部门共享涉税信息的内容和方式。目前,工商税务信息每天都进行实时交换,推动了地税机关在办证服务上的创新,从原来的限时办证发展到现在的即时办证,从原来填写100多项登记信息,升级到填写8项必要信息内容,甚至可以享受免填服务。

  从柜台式管理向自助式全天候管理转型

  广东地税根据纳税人类别、涉税业务类别、办理时段等信息,依托大数据平台,形成了服务大厅、网上办税、纳税热线、自助办税、短信服务等多种渠道并存的大服务格局。通过自助办税终端系统,纳税人可以不受区域和时间限制,自行完成代开小额发票、打印缴款凭证、清缴税费、申报缴纳车船税等凭证类税收业务。截至2012年10月,广东地税已在全省(深圳除外)向纳税人开放573台自助办税终端,24小时自助办税厅(点)63个,办理税收业务累计超过660万户次,日平均办理业务量超过1.3万户次,分担了办税服务大厅约14%的业务量。

  从被动响应型管理向主动预见型管理转型

  为更好地主动服务于纳税人,广东地税通过税收大数据平台,推出全省集中统一的短信服务,为673万纳税人提供短信订阅服务,有针对性地对目标群体提供了发票开具提醒、逾期未申报短信提醒、未到期未申报短信提醒等多项主动短信服务。借助于大数据平台,避免了轰炸式、无目的性的短信服务方式,实现了针对特定受众发送定制短信内容的精确式短信服务,提升了服务质量。经统计,2011年的短信服务量超过1 800万条;2012年前10个月的短信服务量已超过5 220万条。

  从纸质文书管理向电子政务管理转型

  目前,广东地税互联网电子税务局已基本建成,纳税人仅需短短5分钟,足不出户就能轻松办税。全省网报开户纳税人134.2万,开户率90.8%;电子报税的纳税户占纳税户总数的95%以上。广东省还在全国率先推行网络开具发票,不仅方便纳税人,还使税务机关能第一时间掌握每张发票的信息,实时与企业纳税申报数据比对分析,及时发现未缴、少缴税款的情况,保障了税款准确及时入库。网络发票的普及有效解决了假发票泛滥问题,大幅减少了用假发票报销的现象,被国家税务总局誉为“税收管理史上的颠覆性举措”。

  从风险隐蔽型管理向风险防范型管理转型

  广东地税坚持走科技防腐之路,开创了全国税务系统以信息化推进惩防体系建设的先河。依托大数据平台建立的惩防体系信息管理系统,对地税干部的税收执法和行政管理进行全程分析监控,有效防控了各类执法和廉政风险。对全省地税税收执法的监控预警数据从2008年刚上线时的每月近7 000个,大幅回落到2012年的不到500个,下降了92%。国地税分设18年来,全系统违法违纪发案率基本控制在0.5‰以下的较低水平,没有发生重大违法违纪案件,省局机关未发生违法违纪案件。

  精细化管理、协作共享型管理、自助式全天候管理、主动预见型管理、电子政务管理、风险防范型管理,这些关键词也许还无法完全概括出大数据赋予现代管理的种种前景,然而却有助于我们把握前进的方向。令人欣喜的是,由于现代管理具有信息化、标准化的特征,只要有一种好的模式被创造出来,就可以迅速在其他区域、其他部门予以复制和推广。

  中国的大数据实践

  在中国,由各级政府主导的大数据计划已不是独立零散存在的试验田,而是处于全面进行时的生动实践。推动大数据相关产业发展和应用示范,正在成为各地抢占新一轮经济和科技发展制高点的重大战略,成为增强区域竞争力的前沿。

  广东省是率先在全国推行大数据战略的省份。2012年年底,广东省制定了《广东省实施大数据战略工作方案》,提出启动大数据战略,计划采用行政搜集、网络搜取、自愿提供、有偿购买等多种方式拓宽数据搜集渠道;在政府各部门开展数据开放试点,通过部门网站向社会开放可供下载和分析使用的数据,进一步推进政务公开;建设完善全省网上办事大厅、政府数据档案、企业信用信息网等骨干网络系统;用3年左右的时间,在全省范围内推广设立公民个人专属网页。2013年4月,广东省省长朱小丹提出,到2015年,力争信息化水平达到中等发达国家水平;到2020年,迈入世界先进水平,基本建成“智慧广东”。

  网格化是北京市加强社会管理工作的重要创新,也是大数据应用于公共管理的生动实践。在微软全球移动应用开发合作伙伴大会上,比尔·盖茨特意介绍了北京市东城区政府运用移动应用技术开展网格化试点的业绩,并称赞这种城市管理新模式是一项“世界级案例”。目前,北京市已初步构建起全市网格化社会服务管理体系框架,构建了一个“天上有云(云计算中心)、地上有格(社会管理网格)、中间有网(互联网)”的新型社会服务管理信息化支撑体系。网格化的推进使得社会服务管理工作变得更具预警性、主动性和协同性,为建设首善之都、世界城市提供了有力的保障。

  大数据在城市管理中的综合应用-智慧城市,也得到了各级政府的高度重视。目前,我国已经确定了国家智慧城市试点名单。据不完全统计,全国已有95%的副省级以上城市、76%的地级以上城市,总计230多个城市提出或在建智慧城市,计划投资规模近万亿元。当前,我国的智慧城市建设尚处在起步阶段。在不远的将来,一座座集智慧交通、智能电网、智慧物流、智慧医疗、智慧环保、智慧社区、智慧建筑、智慧农业于一体的智慧城市,将让每一位居住在城市的居民都能感受到生活更加美好。

   作为基础设施的大数据

  工业时代的基础设施是铁路、公路、航空以及水、电等。在大数据时代,云计算、高速的泛在网、数据中心成为新一代的基础设施。这些基础设施的建设有的依靠的是政府强有力的投入,更多的投资来自市场,因为企业都在争抢大数据这块“大蛋糕”。

  在2012年7月国务院印发的《“十二五”国家战略性新兴产业发展规划》中,信息处理技术被列为4项关键技术创新工程之一,其中包括了海量数据存储、数据挖掘、图像视频智能分析,这都是大数据的重要组成部分。而另外3项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与大数据密切相关。

  2013年1月11日,工业和信息化部发布《关于数据中心建设布局的指导意见》,明确了科学推动数据中心的建设和布局的指导思想、基本原则,对新建超大型数据中心、新建大型数据中心、新建中小型数据中心和已建数据中心进行布局导向,并从强化政策引导、加强应用引领、夯实网络能力、落实安全保障和发挥示范作用5个方面提出了数据中心建设布局的保障措施。

  2013年1月,国内首家大数据产业园西咸大数据处理与服务产业园开工建设。根据规划,西咸新区将建成10万个机架、100万台服务器,2020年成为全国最大的数据聚集地。据测算,到2020年,大数据年产值1 000亿元,带动相关产业产值对西咸新区生产总值贡献率将超过15%。

  云计算为大数据提供了基础架构平台。2010年,国家发改委将云计算确定为重点发展项目,同时批准北京、上海、杭州、深圳以及无锡为我国首批云计算五大示范城市。其中,北京推出了“祥云工程”,上海提出了“云海计划”,深圳则启动了“鲲云计划”,都着眼于打造世界级的云计算产业基地。仅仅两年的时间,各地已建、在建或者将建的云计算基地中心如雨后春笋般涌现。为了更好地推动我国云计算产业的发展,在工业和信息化部的指导下,中国计算机行业协会云计算专业委员会联合中国电子信息产业发展研究院、中关村软件园、浦东软件园、苏州工业园、南昌高新区、成都高新区等单位共同宣布将发起成立“中国云计算基地(中心)联盟”,通过这一平台,更好地落实国家相关产业发展促进措施,带动各类示范项目落地,加快产业集聚和应用示范推广,以推动我国云计算产业又好又快地发展。

  李克强总理在2013年召开的国务院常务会议上提出了“宽带中国”战略,要求加快网络、通信基础设施建设和升级;加快实施“信息惠民”工程,建立公共信息服务平台;拓展新兴服务业态,开展物联网重大应用示范;增强网络信息安全保障能力。这一政策的出台将对大数据的技术基础设施建设起到巨大的推动作用,大数据引擎发展的效果也将愈加明显。

  云计算

  云计算是在计算量越来越大、数据越来越多、越来越动态、越来越实时、越来越需要结构化的产业背景下催生出来的一种基础架构和商业模式。它将分布在世界范围的计算资源整合为一个虚拟的统一资源体,并且按需服务、按量计费,使得计算资源的利用就像使用电力和自来水一样方便。

  美国国家标准与技术研究院如此定义云计算:它是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用程序、服务),使用者只需投入很少的管理工作,或与服务供应商进行很少的交互,便能从巨大的资源共享池中获得自己所需的信息。

  云计算和大数据就像一个硬币的两面。如果说云计算为数据资产提供了保管、访问的场所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。未来,以大数据为基础,以“云计算+智能终端(如智能手机)+社会化网络(如微博、政民互动应用程序)”的形式,将进一步渗透到人们工作和生活中的每个场景。

  近日,国家电网下属国网信通公司与一些企业合作,建设“电力云仿真实验室”。实验表明,采用云计算能使每台服务器的平均利用率从7%提高到68%-80%;部署时间从小时级降低到分钟级;服务器重构和应用加载时间从20-40小时降低到15-30分钟;数据中心总运营成本节约30%以上,其中包括提高服务器利用率、降低硬件采购成本、借助虚拟机自动分配与部署、降低人力支出等因素。

   作为基础性制度的大数据

  2013年3月14日公布的《国务院机构改革和职能转变方案》,由于推动了中国铁路总公司、国家卫生和计划生育委员会、国家食品药品监督管理局、国家新闻出版广电总局、国家海洋局、国家能源局等部门的整合而备受关注。然而,与具体的机构整合相比,该方案提出的一系列基础性制度将把大数据嵌入经济社会管理的方方面面,对未来政府与社会的运行方式产生更深远的影响。

  该方案及其任务分工的通知要求:用3--5年的时间,基本建成集合金融、工商登记、税收缴纳、社保缴费、交通违章等信用信息的统一平台,实现资源共享;建立以公民身份号码为基础的公民统一社会信用代码制度;建立以组织机构代码为基础的法人和其他组织统一社会信用代码制度;建立不动产统一登记制度;加强技术标准体系建设。

  在社会学专家看来,基础性制度是一种能制约、派生或影响其他制度的原生性行为规则,在经济发展的制度框架中居于基础位置。在我国的体制改革中,基础性制度的建设情况决定了社会经济发展的基本环境,对其他层面的制度运行和体制改革具有深刻的影响。通常来说,能够起到制约其他制度的基础性制度主要有信用制度、市场秩序、产权制度、生产要素、社会保障、政府治理环境以及法律、文化道德传统等。例如,信用制度是现代市场经济的重要基础性制度,市场经济是一种信用经济,良好的社会信用体系会大幅降低交易成本,提高整个国民经济的运行效率;社会信用缺失则会影响经济发展,甚至造成整体经济的混乱。“房叔”、“房姐”事件就是钻了不动产统一登记制度尚未建立的空子。

  目前,我国很多中小城市的政务信息化进程缓慢,甚至还没有建立起电子化管理体系,大量信息是纸质的,没有办法实现联网。即便完成了信息化工作,由于各地房地产信息系统各自发展,还存在数据标准不统一、难以整合的情况。此外,部门与部门之间目前也各自独立,房产登记是一个系统,商品房销售又是另一个系统,把这些系统整合起来也是一个难题。此外,要解决与“房叔”、“房姐”事件相关的伪造身份、贪污腐败等问题,还涉及不动产统一登记信息与其他类型信息之间的整合。而要实现上述大范围的数据整合,只能从大数据中寻找解决方案。而只有实现了这样的数据整合,才可以说大数据真正落了地,真正创造了大知识和大价值。

  可以预见,在不远的未来,我国政府建立起这些基础性制度后,不仅可以通过掌握官员的家庭财产和消费状况让腐败分子无可遁形,而且可以通过调用个人居住、出行、金融信息,识别社会保障领域的诈骗,可以对食品产业链进行全程监管,保障食品安全质量,还可以大幅缩减行政申报环节、提高行政审批效率,为公众提供“快半拍”的人性化服务。

   政府大数据观

  大数据不仅是一种海量的数据状态、一系列先进的信息技术,更是一套科学认识世界、改造世界的观念与方法。树立这套世界观和方法论,有利于我们转变拍脑袋决策的作风,提高科学决策能力;有利于我们转变行政主导的传统思维,树立以人为本的核心意识;有利于我们深入把握科学发展观的精神内涵,把握科学发展的题中之义。

   从拍脑袋到大数据决策

  个别领导干部把决断误认为武断和盲断,结果导致决策失误、劳民伤财。这样的领导干部被群众戏称为“三拍”干部,即“事前拍脑袋决策、事中拍胸脯保证、事后拍屁股走人”。

  然而,政府决策是对地方经济、政治、文化和社会建设提思路、做规划、定政策、出措施的过程,决策一经出台实施,就必然会在社会各个层面引起程度不同的反响,必然会涉及各方面利益格局的调整。决策失误将给国家、人民造成损失。此外,随着公共管理事务的日益复杂,仅凭个人感知已经很难全面了解所有正在发生的事情,并做出正确的判断。这就要求政府部门提高改革决策的科学性,把大数据技术与思维运用到管理与决策中,掌握决策依据、优化决策过程、跟踪决策实施。

  一是“用数据说话”,为决策提供科学依据。科学发展观要求按科学发展规律办事,不能拍脑袋想当然,搞“长官意志”。数据是科学的基础,也是科学的度量标准。在大数据时代,政府决策应更多地基于科学的数据、分析和事实做出,基于对科学规律的把握。例如,纽约市警方开发了一款电子数据地图CompStat,通过分析案件与发薪日、体育赛事、天气变化和假日等变量的相关性,预测最可能发生罪案的“热点”地区,并预先在这些地区部署警力。应用这套系统后的次年,该市犯罪率就出现了明显的下降,凶杀案发生数量创下50年来最低。纽约的巨大成功很快引起美国司法部门的注意,开始在全国范围内推行数据驱动的管理方法,强调“数据和信息是执法工作中制定战略和决策的基础”。

  二是智能辅助决策,大幅提高行政效率。大数据能够创造出复杂的人工智能,让计算机代替人类完成动态监测、语音咨询、即时翻译乃至医疗诊断、法律文书处理等专业任务。这种处理不仅是实时的、大批量的,更是科学的、精准的。例如,用红绿灯代替交警指挥节省了大量的人力成本,这是一种进步,但是还谈不上智能。人们常常会遇到这样一种情况,开车到达路口时碰巧指示灯变红了,即便对面没有车通过,也要无效率地等待。另外,人行横道的绿灯时间太短,威胁行人安全,也使社会对红绿灯设置的合理性产生了广泛的质疑。2013年,温州市主城区新增了172个悉尼自适应交通控制系统,根据各个路口的车流、人流大小自动调整红绿灯的等待时间,实现了对交通流的实时最佳配置和控制。

  三是跟踪决策实施,持续改进公共管理与服务。大数据不仅能为政府提供决策产生机制,而且能根据实际需求和公众体验提供相应的决策信息反馈机制、决策调控纠偏机制。例如,哈佛大学和麻省理工学院的在线教育平台向全世界免费开放高质量的学习课程,为的就是让更多的学习者在上面学习、使用,这样它们就能搜集更多的数据,从而研究世界各国学习者的行为模式,使知识传播的形式不断优化、效率不断提高。任何错误都会在互联网上的千万双眼睛的关注下无所遁形,而教师之间、大学之间教学质量的差异变得高下立判。教育在我国本身就是一种公共服务,与传统的派驻专家组的方法相比,大数据对于学科建设、本科教学的改进而言也许有着更加积极的意义。大数据使得公共管理和服务变得可以监督、全过程监督、全员监督,为避免政绩工程和地方政府行为失范提供了一种可能。

   从行政主导到以人为本的服务型政府

  “以人为本”是科学发展观的核心。在公共服务方面,大数据观的树立有助于使政府改变传统的指令导向的公共管理模式和供给导向的公共服务模式,开启人本导向、需求导向的公共管理与服务新模式,为公众提供更优质、高效、个性化的公共服务。

  一是全面感知,使政府行动更有目标和效率。在大数据的辅助下,政府一方面能够实时、全面感知和预测公众所需的各类服务和信息,及时发现需求热点,为用户提供更加智能化的办事、便民服务;另一方面,对公民需求的多维度多层次细分,把面上的需求判断变为对需求细节的感知,使政府服务更精准、更个性化。例如,北京市公交部门于2013年9月推出定制公交平台。市民可在该平台上提出自己的出行需求,公交集团则根据出行需求和客流情况设计线路,然后在定制公交平台上招募乘客、预订座位、在线支付。根据约定的时间、地点、方向开行商务班车,保证一人一座,每日出行费用远远低于自驾车或乘坐出租车。

  二是快速响应,有效提升应急管理能力和公众满意度。基于实时数据分析,政府不仅能够在第一时间响应和处理公共事件和公众诉求,而且能够把事后响应变成事中响应和事前预测,把人身安全威胁和财产损失和给公众带来的不便减到最少。例如,近年来,我国的群体性事件时有发生,其中,一些问题的产生就是因为政府的舆情研判能力不足,贻误了最佳处置时机,从而陷入被动,损害国家形象,甚至影响社会稳定。现在已经有一些机构向政府提供大数据的网络舆情监测服务,通过抓取海量数据监控社会舆情和公众情绪,为政府提供一个了解基层民众呼声和意愿的重要方式。舆情监测得越早、研判得越准,就越能早发现、早应对、早引导,将有可能酿成重大舆情危机的不稳定舆情苗头化解在萌芽状态。

  三是公众参与,形成共建共治的社会治理格局。依靠群众、发动群众是中国共产党的制胜法宝。政府要维护庞大的社会良性运行,不能仅依靠公务人员的力量,还应调动广大人民群众的力量。这与互联网带来的一种新的资源组织形式“众包”不谋而合。

  美国一位程序员发明了一款应用程序SeeClickFix,人们可以通过手机拍照,使用该程序举报乱涂乱画、交通灯损坏或者排水管堵塞问题,这些投诉被自动记录在案,并被发送到公共事业部门,相关问题会很快解决。SeeClickFix自2008年3月面世以来,目前已在美国上千个城市投入使用,其中既有旧金山、华盛顿和达拉斯等大城市,也包括马萨诸塞州西部和康涅狄格州的许多小镇。SeeClickFix是政府2.0理念的典型代表。在我国的社区网格化管理系统实践中,类似SeeClickFix的系统也得到了普及。

  政府2.0/我的政府

  政府2.0是“网络2.0之父”蒂姆·奥莱利提出的一种新的政府形态,它以用户为中心、以服务为导向,作为一个整体、开放的平台,与民众直接互动和沟通,将政府为主体的政府行政过程转变为以社会公众为主体,是政府、市场、社会三方协同互动的公共价值塑造过程。在这一进程中,以移动技术为代表的云计算、物联网等新一代信息技术工具和社会性网络服务、社交媒体为代表的社会工具起到了关键的作用。

  威廉·D·埃格斯2004年在《政府2.0:通过信息技术来改善教育、削减开支、缓解交通拥堵、增强民主》中进一步提出了“我的政府”的概念,即以市民为中心的政府,政府可以根据公众不同的需求提供个性化服务,并将需求者和服务提供者匹配起来。

  与电子政府不同,政府2.0/我的政府更强调整合政府职能,改变条块分割的传统架构,提供一站式服务;更强调开放、协同、合作,公众通过移动客户端参与政府提供公共服务产品的全过程。它是电子公务理论的体现,即用信息技术实现以公共产品与服务为核心,政府、企业、公众和社区充分互动协同,涵盖公共管理与服务各方面的完整动态循环系统。

  本章主要讲述大数据的发展趋势,以及把大数据的思维、技术和方法应用于公共管理领域的重要意义。但是,大数据究竟是什么?它有哪些特征?我们需要做好哪些准备迎接大数据时代的来临?中国应如何通过技术、组织和文化的变革应对大数据带来的机遇与挑战?这是本书后面几章要回答的问题。

  第三章 万千气象:感受数据之大

  “人类历史上最早的一批城市都诞生在河边,河流为人类提供了食物、水和交通。而我们要做的就是创造一条数据的河流,滋养信息经济的发展。”

  ——纽约一家数据网站首页的标语

  什么是大数据

  “大数据”一词已经无处不在,然而其概念仍然存在混淆。有人从数量大、速度快、种类多等特征定义大数据;有人把大数据看作一项新技术,例如大数据处理技术Hadoop和非关系型数据库NoSQL;有人从大数据与数据的区别角度提出,大数据不仅包括人们过去搜集、存储和分析的交易数据,更包括人们从点击网页等操作中得到的交互数据以及机器自动搜集的观察数据;还有人认为大数据是一种新的预测信号,在传统情况下,当数据被记录时,人们已经无法对它们采取任何行动,组织在不断管理“失效的数据”,而在“新世界”,组织可以使用信号数据预测将发生什么,并通过干预改善情况。

  值得注意的是,无论如何定义,业界几乎所有人都普遍认同,大数据不只是更多的数据,大数据是一个大事件,在未来几年将带来重大的机遇。

   大数据与数据有何不同

  “大数据”一词由英文“Big Data”翻译而来。很多文章在介绍大数据这一概念时都侧重于强调其“大”,即需要处理的信息量过大,已经超出了一般计算机在处理数据时所能使用的内存量,因此工程师们必须改进处理数据的工具。

  然而,究竟多大才算是大数据?这个问题并没有标准答案,因为大数据的标准是不断调整的。麦肯锡全球研究所报告对大数据有以下定义:大数据是指大小超出了传统数据库软件工具的抓取、存储、管理和分析能力的数据群。这个定义有意地带有主观性,即我们不以超过多少TB为大数据的标准。我们假设随着时间的推移和技术的进步,大数据的量仍会增加。还应注意到,该定义可以因部门的不同而有所差异,这取决于什么类型的软件工具是通用的,以及某个特定行业的数据集通常的大小。因此,今天众多行业的大数据范围可以从几十TB到数千TB。

  有人可能有这样的疑问:大数据不就是数据分析的另一种说法吗?大数据与数据究竟有何不同?大数据与传统的数据挖掘相比,与其说是一种量的进步,不如说是一种质的飞跃。人们在大数据的基础上可以做到的事情,在小规模数据的基础上是无法完成的。

  高德纳的一份报告认为:大数据是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。这一概念虽然简洁,却内涵丰富:第一,它认为大数据是一种信息资产;第二,这种信息资产具有海量、高增长率和多样化的属性;第三,它指出了大数据的应用价值和革新意义,即具有更强的决策力、洞察力和流程优化能力。

  笔者更赞同高德纳的定义,把大数据看作一种战略和习惯,一种新的世界观和方法论。例如,谷歌不用分发口腔试纸和联系医院,就能给出和基于大量真实病例所得到的流感情况一致的结果,并且比疾控中心提前了两周,就是因为它分析了数千亿的数据,建立了强大的预测模型。从2009年10月起,“谷歌流感趋势”网站开始提供全球每周流感疫情预测,对于数据较完备国家的预测能精确到省份,并能显示横跨7年的历史数据。

  另一个有代表性的例子发生在能源计量领域。美国软件公司Opower与多家电力公司合作,在几百万户家庭安装了智能电表,这些电表每隔15分钟就读一次用电数据。Opower公司据此每个月向每户家庭提供一份个性化报告,把该家庭的电费与周围邻居进行对比,显示该家庭的用电情况在全美类似家庭中所处的水平,以鼓励节约用电,预计每年为美国消费用电节省5亿美元。由此可见,大数据成为政府节能减排的千里眼、万只手,并且做到了深入每户家庭、量身定制解决方案,这在入户抄电表的传统工作方式下根本是无法想象的事情。

   打开数据利用的想象空间

  分析师马特·艾斯莱特将大数据定位为“之前因为技术限制而被忽略的数据”。的确,尽管从数据中发现价值的实践由来已久,但是在大数据时代,数据的价值才真正被发掘出来,人们用数据说话、用数据决策、用数据管理、用数据创新的意识才真正被唤醒。

  至顶网副总编赵效民提出了一个非常有意思的观点。他认为:“大数据的出现标志着人类在数据利用方面进入了一个新的阶段,它代表了一种理念(数据能源)、一种思路(从数据搜集到数据分析再到数据呈现的整体构想)和一种新工具(将结构化与非结构化数据和语义与机器化数据汇聚、统一处理、分析与呈现的工具)的集合。它赋予了人类认知数据的新能力,也进一步打开了人类在数据利用方面的想象空间。”

  赵效民进一步阐述,放眼地球上的各种能源,就会发现大数据与其有太多相似之处。物质成为能源的前提在于人类对它们的认知。在远古时期,人类因雷电引火,发现了火和木材这两种能源。随着人类文明的进步,人类逐渐发现了越来越多的能源,比如煤、天然气、石油和太阳能。它们已经在地球上静静地存在了成万上亿年,只是在人类掌握了相应的科技与工具之后,它们才得到利用。数据也是如此,如果数据存在一个生成/采集-应用/加工-保存/管理-分析/挖掘-再保存或删除这样的一个周期,那么从其生成的那一刻起,它就存在应有的价值,只是在于你是否有能力发现它们。这需要新的理念、知识、技术与相应的工具。原始人即使知道地下有石油,也无法开采,对所谓的数据分析,道理也是一样的。

  从人类发展的历史来看,不断发现新能源是一种公理似的注定。当我们掌握了越来越先进的理念基础,并依此开发出越来越先进的工具,出现新的惊喜可以说理所当然。就像刚发明汽车时,谁也不会想到电、水会成为汽车可行的燃料。从这个角度讲,当前的大数据所带来的种种神奇只是人类在数据搜集、管理和分析等领域的一次进步而已,它有出现的必然,而非人类的一种顿悟。

  新的数据技术既是数据大爆炸产生的基础,也为应对数据大爆炸提供了解决方案。信息和通信技术的融合与发展,廉价的存储、传感器和数据采集技术的快速发展,通过云和虚拟化存储设施增加的信息链路,以及创新软件和分析工具,是驱动大数据发展的技术基础。这些数据分析技术横跨数据库、统计学和机器学习等交叉学科。

  从某种角度讲,大数据其实就是人类能源开拓历史在信息技术领域的一种再现与映射。大数据中谈到的数据搜集、汇总、保存、管理、分析、呈现,与能源的勘探、开采、汇聚、保管、提炼、使用一一对应。在数据利用的愿景方面,大数据与原来的数据仓库、数据挖掘、商业智能等概念是同出一辙、一脉相承的。它是人类信息技术水平发展到一定阶段的必然结果。它赋予了人类对数据认知的新能力,也进一步打开了人类在数据利用方面的想象空间。

  第三次工业革命的战略资源

  美国经济学家杰里米·里夫金提出了第三次工业革命的概念。在他看来,通信技术和能源技术的基础设施的变革是工业革命的主要推动力,并引发了经济和社会的转型。互联网技术与可再生能源的结合正在孕育第三次工业革命的基础设施-能源物联网。而第三次工业革命的主要内容便是解决前一次工业革命没有解决的问题。

  在农业化浪潮中,一个木匠做家具可以是一把好手,但他在扩大再生产、创造社会化价值上是业余水平。在工业化浪潮中,生产者具有了大规模社会化地生产有用的东西的能力与环境,但是由于信息不对称,生产者的生产和服务经常是盲目的。生产者缺乏信息,不知道消费者需要什么,经常费了很大劲生产出市场不需要的东西,也就是创造了一大堆有价值而无意义的东西,因而实现不了价值。故第三次工业革命的使命便是通过信息化与数据化实现价值的最大化,通过个人对个人的一对一关系发展起来,以数据为中介,在经济上表现为多样化、差异性、个性化体验。

  2012年4月21日,《经济学人》专题讨论了第三次工业革命,并强调3D(三维)打印是第三次工业革命的核心推动力。如同第一次工业革命实现了机器生产对手工作坊的替代,第二次工业革命实现了规模化生产一样,以3D打印为代表的数字化制造将推进新软件、新工艺、机器人和个性化网络服务的普及,最终实现大规模定制化生产、分散式就近生产。

  在第三次工业革命中,数据、计算将成为战略资源,扮演重要角色,如果把计算看作能源,视作能像电能、太阳能一样流通的资源,并以统一的价格收费,我们将来用三步计算、五步计算也就并不在乎计算从哪里来,就像我们不知道今天的5度电是来自大亚湾还是三峡。未来,大数据相关的技术和能力将成为一个国家至关重要的核心战略资源。

  为了提升中国在第三次工业革命中的发展速度,为进入下一个经济周期做好准备,我们的每一个企业、科研团队和政府,都有责任通过一些计划,有目的地搜集、处理、分析、索引数据,IBM(国际商业机器公司)设立了“智慧地球”项目,现在,中国也有一些行业(如通信运营商、金融银行企业单位、政府交通部门)在制订类似的行业计划,通过信息化改造实现海量数据的搜集和处理,这些数据在未来可能产生现在所想象不到的价值,也需要现在的企业家、政府部门做好准备。

  总之,无论是以智能电网为基础的能源物联网,还是以3D打印为基础的数字化制造,大数据都是以第三次工业革命的“新石油”这一重要战略资源的形态存在。可以想象,未来云计算、物联网和大数据将成为基础设施,移动互联网和3D打印技术将成为共性平台,数据分析和机器人等人工智能控制将成为服务手段,那么数据、知识和价值的按需分配、多次挖掘将成为新经济形态的不竭动力。

  3D打印

  3D打印是以计算机三维设计模型为蓝本,通过软件分层离散和数控成型系统,利用激光束、热熔喷嘴等方式将金属粉末、陶瓷粉末、塑料、细胞组织等特殊材料进行逐层堆积黏结,最终叠加成型,制造出实体产品的技术。

  普通喷墨式打印机将墨水喷到纸的表面形成二维图像。而在3D打印时,软件通过计算机辅助设计完成一系列数字切片,并将这些切片的数据传送到3D打印机上,后者会将连续的薄型层面堆叠起来,直到一个固态物体成型。3D打印机与传统打印机最大的区别在于它使用的“墨水”是实实在在的原材料。有些打印机还能结合不同介质,令打印出来的物体一边坚硬而另一边柔软。

  这也与传统制造业通过模具、车铣等机械加工方式对原材料进行定型、切削以最终生产成品不同,3D打印将三维实体变为若干个二维平面,通过对材料处理并逐层叠加进行生产,大大降低了制造的复杂度。这种数字化制造模式不需要复杂的工艺、不需要庞大的机床、不需要众多的人力,直接从计算机图形数据中便可生成任何形状的零件,使生产制造得以向更广的生产人群范围延伸。

  科学家们正在利用3D打印机制造简单的活体组织,如皮肤、肌肉和血管片段,未来某一天我们有可能制造出像肾脏、肝脏甚至心脏这样的大型人体器官。如果生物打印机能够使用病人自身的干细胞,那么器官移植后的排异反应将减少。人们还可以打印食品,比如康奈尔大学的科学家们已经成功打印出杯形蛋糕。英国埃克塞特大学的研究人员推出了巧克力3D打印机,其成熟的产品现已推向市场。

   大数据的特征

  2001年,高德纳分析员道格·莱尼在一份与其2001年的研究相关的演讲中指出,数据增长有三个方向的挑战和机遇:量(Volume),即数据多少;速(Velocity),即资料输入、输出的速度;类(Variety),即多样性。

  在莱尼的理论基础上,IBM提出大数据的4V特征,得到了业界的广泛认可。

  第一,数量(Volume),即数据巨大,从TB级别跃升到PB级别;

  第二,多样性(Variety),即数据类型繁多,不仅包括传统的格式化数据,还包括来自互联网的网络日志、视频、图片、地理位置信息等;

  三,速度(Velocity),即处理速度快;

  第四,真实性(Veracity),即追求高质量的数据。虽然不同学者、不同研究机构对大数据的定义不尽相同,但都广泛提及了这4个基本特征。

  大容量

  天文学和基因学是最早产生大数据变革的领域。2000年,斯隆数字巡天项目启动时,位于新墨西哥州的望远镜在短短几周内搜集到的数据已经比天文学历史上总共搜集的数据还要多;在智利的大型视场全景巡天望远镜一旦于2016年投入使用,其在5天之内搜集到的信息量将相当于前者10年的信息档案。2003年,人类第一次破译人体基因密码时,用了10年才完成了30亿对碱基对的排序;而在10年之后,世界范围内的基因仪15分钟就可以完成同样的工作量。

  伴随着各种随身设备、物联网和云计算、云存储等技术的发展,人和物的所有轨迹都可以被记录,数据因此被大量生产出来。移动互联网的核心网络节点是人,不再是网页。人人都成为数据制造者,短信、微博、照片、录像都是其数据产品;数据来自无数自动化传感器、自动记录设施、生产监测、环境监测、交通监测、安防监测等;来自自动流程记录,刷卡机、收款机、电子不停车收费系统,互联网点击、电话拨号等设施以及各种办事流程登记等。大量自动或人工产生的数据通过互联网聚集到特定地点,包括电信运营商、互联网运营商、政府、银行、商场、企业、交通枢纽等机构,形成了大数据之海。

  我们周围到底有多少数据?数据量的增长速度有多快?许多人试图测量出一个确切的数字。

  2011年,马丁·希尔伯特和普里西利亚·洛佩兹在《科学》上发表了一篇文章,对1986--2007年人类所创造、存储和传播的一切信息数量进行了追踪计算。其研究范围大约涵盖了60种模拟和数字技术:书籍、图画、信件、电子邮件、照片、音乐、视频(模拟和数字)、电子游戏、电话、汽车导航等。

  据他们估算:2007年,人类大约存储了超过300EB的数据;1986-2007年,全球数据存储能力每年提高23%,双向通信能力每年提高28%,通用计算能力每年提高58%;预计到2013年,世界上存储的数据能达到约1.2ZB。

  这样大的数据量意味着什么?据估算,如果把这些数据全部记在书中,这些书可以覆盖整个美国52次。如果存储在只读光盘上,这些光盘可以堆成5堆,每堆都可以伸到月球。在公元前3世纪,希腊时代最著名的图书馆亚历山大图书馆竭力搜集了当时其所能搜集到的书写作品,可以代表当时世界上其所能搜集到的知识量。但当数字数据洪流席卷世界之后,每个人都可以获得大量数据信息,相当于当时亚历山大图书馆存储的数据总量的320倍之多。

   多样性

  随着传感器、智能设备以及社交协作技术的飞速发展,组织中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括点击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。

  在大数据时代,数据格式变得越来越多样,涵盖了文本、音频、图片、视频、模拟信号等不同的类型;数据来源也越来越多样,不仅产生于组织内部运作的各个环节,也来自于组织外部。例如,在交通领域,北京市交通智能化分析平台数据来自路网摄像头/传感器、公交、轨道交通、出租车以及省际客运、旅游、化危运输、停车、租车等运输行业,还有问卷调查和地理信息系统数据。4万辆浮动车每天产生2 000万条记录,交通卡刷卡记录每天1 900万条,手机定位数据每天1 800万条,出租车运营数据每天100万条,电子停车收费系统数据每天50万条,定期调查覆盖8万户家庭,等等,这些数据在体量和速度上都达到了大数据的规模。发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之未做、能前人所不能的机会。

  大数据不仅是处理巨量数据的利器,更为处理不同来源、不同格式的多元化数据提供了可能。例如,为了使计算机能够理解人的意图,人类就必须要将需解决的问题的思路、方法和手段通过计算机能够理解的形式告诉计算机,使得计算机能够根据人的指令一步一步工作,完成某种特定的任务。在以往,人们只能通过编程这种规范化计算机语言发出指令。随着自然语言处理技术的发展,人们可以用计算机处理自然语言,实现人与计算机之间基于文本和语音的有效通信。为此,还出现了专门提供结构化语言解决方案的组织-语言数据公司。自然语言无疑是一个新的数据来源,而且也是一种更复杂、更多样的数据,它包含诸如省略、指代、更正、重复、强调、倒序等大量的语言现象,还包括噪声、含混不清、口头语和音变等语音现象。

  苹果公司在iPhone手机上应用的一项语音控制功能Siri就是多样化数据处理的代表。用户可以通过语音、文字输入等方式与Siri对话交流,并调用手机自带的各项应用,读短信、询问天气、设置闹钟、安排日程,乃至搜寻餐厅、电影院等生活信息,收看相关评论,甚至直接订位、订票,Siri则会依据用户默认的家庭地址或是所在位置判断、过滤搜寻的结果。为了让Siri足够聪明,苹果公司引入了谷歌、维基百科等外部数据源。在语音识别和语音合成方面,未来版本的Siri或许可以让我们听到中国各地的方言,比如四川话、湖南话和河南话。

  多样化的数据来源正是大数据的威力所在。例如,交通状况与其他领域的数据都存在较强的关联性。研究发现,可以从供水系统数据中发现早晨洗澡的高峰时段,加上一个偏移量(通常是40-45分钟)就能估算出交通早高峰时段;同样可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量估算出晚上的堵车时段。

   快速度

  在数据处理速度方面,有一个著名的“1秒定律”,即要在秒级时间范围内给出分析结果,超出这个时间,数据就失去价值了。

  例如,IBM有一则广告,讲的是“1秒,能做什么”?1秒,能检测出台湾的铁道故障并发布预警;也能发现得克萨斯州的电力中断,避免电网瘫痪;还能帮助一家全球性金融公司锁定行业欺诈,保障客户利益。

  在商业领域,“快”也早已贯穿企业运营、管理和决策智能化的每一个环节。形形色色描述“快”的新兴词汇出现在商业数据语境里,例如实时、快如闪电、光速、念动的瞬间、价值送达时间。

  英特尔中国研究院首席工程师吴甘沙认为,快速度是大数据处理技术和传统的数据挖掘技术最大的区别。大数据是一种以实时数据处理、实时结果导向为特征的解决方案,它的“快”有两个层面。一是数据产生得快。有的数据是爆发式产生,例如,欧洲核子研究中心的大型强子对撞机在工作状态下每秒产生PB级的数据;有的数据是涓涓细流式产生,但是由于用户众多,短时间内产生的数据量依然非常庞大,例如,点击流、日志、射频识别数据、GPS(全球定位系统)位置信息。二是数据处理得快。正如水处理系统可以从水库调出水进行处理,也可以处理直接对涌进来的新水流。大数据也有批处理(“静止数据”转变为“正使用数据”)和流处理(“动态数据”转变为“正使用数据”)两种范式,以实现快速的数据处理。

  吴甘沙提出,天下武功,唯快不破。为什么要“快”?第一,时间就是金钱。如果说价值是分子,那么时间就是分母,分母越小,单位价值就越大。面临同样大的数据“矿山”,“挖矿”效率是竞争优势。第二,像其他商品一样,数据的价值会折旧,等量数据在不同时间点上价值不等。NewSQL(新的可扩展性/高性能数据库)的先行者VoltDB(内存数据库)发明了一个概念叫作“数据连续统一体”:数据存在于一个连续的时间轴上,每个数据项都有它的年龄,不同年龄的数据有不同的价值取向,新产生的数据更具有个体价值,产生时间较为久远的数据集合起来更能发挥价值。第三,数据跟新闻一样具有时效性。很多传感器的数据产生几秒之后就失去意义了。美国国家海洋和大气管理局的超级计算机能够在日本地震后9分钟计算出海啸的可能性,但9分钟的延迟对于瞬间被海浪吞噬的生命来说还是太长了。

  越来越多的数据挖掘趋于前端化,即提前感知预测并直接提供服务对象所需要的个性化服务。例如,对绝大多数商品来说,找到顾客“触点”的最佳时机并非在结账以后,而是在顾客还提着篮子逛街时。电子商务网站从点击流、浏览历史和行为(如放入购物车)中实时发现顾客的即时购买意图和兴趣,并据此推送商品,这就是“快”的价值。

   真实性

  在以上3项特征的基础上,IBM归纳总结了大数据的第四个特征-真实性。数据的重要性就在于对决策的支持。数据的规模并不能决定其能否为决策提供帮助,数据的真实性和质量才是获得真知和思路最重要的因素,是制定成功决策最坚实的基础。

  追求高数据质量是一项重要的大数据要求和挑战。即使最优秀的数据清理方法也无法消除某些数据固有的不可预测性,例如,人的感情和诚实性、天气形势、经济因素以及未来。在处理这些类型的数据时,数据清理无法修正这种不确定性。然而,尽管存在不确定性,数据仍然包含宝贵的信息。我们必须承认、接受大数据的不确定性,并确定如何充分利用这一点,例如,采取数据融合,即通过结合多个可靠性较低的来源创建更准确、更有用的数据点,或者通过鲁棒优化技术和模糊逻辑方法等先进的数学方法。

  业界还有人把大数据的基本特征从4V扩展到了11V,包括价值密度低(Value)、可视化(Visualization)、有效性(Validity)等。例如,价值密度低是指随着物联网的广泛应用,信息感知无处不在,信息海量,但在连续不间断的视频监控过程中,可能有用的数据仅一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。

  国际数据公司报告里有一句话,概括出了大数据基本特征之间的关系:大数据技术通过使用高速的采集、发现或分析,从超大容量的多样数据中经济地提取价值。

  除了上述主流的定义,还有人使用3S 或者3I 描述大数据的特征。3S指的是:大小(Size)、速度(Speed)和结构(Structure)。3I指的是:

   (1)定义不明确的(Ill-de。ned):多个主流的大数据定义都强调了数据规模需要超过传统方法处理数据的规模,而随着技术的进步,数据分析的效率不断提高,符合大数据定义的数据规模也会相应不断变大,因而并没有一个明确的标准;

   (2)令人生畏的(Intimidating):从管理大数据到使用正确的工具获取它的价值,利用大数据的过程中充满了各种挑战;

   (3)即时的(Immediate):数据的价值会随着时间快速衰减。因此为了保证大数据的可控性,需要缩短数据搜集到获得数据洞察之间的时间,使得大数据成为真正的即时大数据。这意味着能尽快地分析数据对获得竞争优势至关重要。由于相关表述都异曲同工,在此不做详细介绍。

   数据大爆炸

  在人类利用信息的历史上,共发生了5次媒介技术革命,每一次媒介革命都催生了一次数据大爆炸,并推动人类文化实现跨越式的发展。

  历史学家伊丽莎白·爱森斯坦发现,1439年前后,古腾堡发明印刷机以后(第三次媒介革命),1453-1503年,这50年大约有800万本书被印刷出来,比1200年前君士坦丁堡建立以来整个欧洲所有的手抄书还要多。换言之,欧洲的信息存储量花了50年才增长100%(当时的欧洲占据了世界上大部分的信息存储份额),而如今大约每3年就能增长100%。

  这次媒介革命产生的数据洪流之猛烈,是前几次媒介革命难以企及的。美国电影《阿凡达》的制作团队动用了将近40 000个处理器,电影制作过程中产生的数据量达到了3PB,而同期的美国国会图书馆存档网络数据大小不足100TB,也就是说制作一部《阿凡达》产生的数据量相当于30个美国国会图书馆的数据量。这仅是数据大爆炸的一个缩影。我们正在经历一场前所未有的数据大爆炸,不仅数据的容量在扩大、数据的种类在增长,数据产生的速度也在日益加快。

  表3-1 五次媒介革命

  媒介革命/时间/内容

  第一次媒介革命

  人类史前时期

  语言的出现:语言促进了人类思维能力的增强,并为人们相互交流思想、传递信息提供了有效的工具

  第二次媒介革命

  公元前3500年

  文字的出现:文字作为信息的载体,可以使知识、经验长期得到保存,并使信息的交流开始能够克服时间、空间的障碍,可以长距离地或隔代地传递信息

  第三次媒介革命

  15世纪

  印刷术的普及:书籍、报刊成为重要的信息储存和传播的媒体,打破了知识的垄断,极大促进了信息的共享和文化的普及

  第四次媒介革命

  19世纪中期

  电话、广播、电视的发明:利用电磁波传播信息,突破了时间和空间的限制,使声音、画面的传播瞬息万里

  第五次媒介革命

  20世纪中后期至今

  计算机与互联网的使用:数字化、多媒体和网络化快速推进,人类进入信息社会,信息对整个社会的影响逐步提高到空前重要的地位,信息量、信息传播的速度、信息处理的速度以及信息应用的程度等都以几何级数的方式增长

  媒介革命是形成数据大爆炸的重要原因。联合国报告认为,与经济社会发展有关的大数据一般都具有以下特征:

   (1)数据是数字化产生的,可以进行数字化存储并通过计算机处理;

   (2)数据是被动产生的,来自人们日常生活和活动中的数字化服务;

   (3)数据是自动搜集的,在产生的同时被搜集并存储;

   (4)可对数据进行空间或时间跟踪,如移动电话的呼叫位置和时间;

   (5)数据是被实时分析的。这些特征使巨量数据的采集成为可能。在传统的数据采集方式下,例如通过登记申报、人口普查,要获得这样规模庞大、形式多样的数据是根本无法想象的事情。

   数字数据的增长

  希尔伯特研究发现:全球数字数据的数量每3年多就会翻一番,而模拟数据的数量则基本上没有增加。2000年,世界上3/4的数据都是存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上的模拟数据,数字存储信息只占全球数据量的1/4。2002年,数字技术的全球数据存储量首次超过模拟技术。而在2007年,只有7%的数据是存储在报纸、图书、图片等媒介上的模拟数据,其余全部是数字数据。预计到2013年,非数字数据只占不到2%。1986-2007年,纸质媒介存储的数据在全球数据总量中的比重从33%降到了的0.007%。

  电子书替代了纸质书,数字影像替代了胶片影像,数字语音替代了模拟语音,数字视频替代了模拟视频,甚至公交卡替代了传统的公交票,存储在手机上的票据可以充当电影票、登机牌……当文本、图像、声音、视频都可以用1和0表示,都能够以数字格式记录、存储、编辑并传播时,数据便开始全面进入我们工作和生活。信息生产和传播变得更加简单,通过计算机智能化地处理这些信息成为可能。

  数字化的力量是强大的。2010年纸质版《大英百科全书》,全套书售价

  1 395美元,包含32册,重达58.5千克。然而,它的全部内容还装不满一个4G的U盘。有鉴于此,《大英百科全书》的出版社于2012年3月对外宣布,具有244年历史的《大英百科全书》将不再推出纸质版,内容全面数字化。实际上,4年前,大英百科全书公司总裁乔治·考茨就曾表示,《大英百科全书》的网络版和电子版的发行量已经超过纸质版,纸质版的发行收入只占总收入的20%。

  互联网上运行的维基百科是数字化百科全书的代表,以此为例。在2001年,即维基百科创建的第一年,就创建了超过2万个条目,平均每月1 500条。截至2013年8月,英文版的维基百科已有429万多个条目,是《大英百科全书》的43倍。而全球所有282种语言独立运作的维基百科版本共突破2 100万个条目,总登记用户超越3 200万人,总编辑次数更是突破12亿次。来自世界各地的参与者都可以编辑维基百科中的任何文章及条目,他们共同形成了一个免费的、动态的、自由开放的全球知识体。数字化正是实现这一切的基础。

   非结构化数据的增长

  有研究认为,组织一直在分析应用的数据只占数据总量20%,这些数据主要是结构化数据,另外80%的数据并没有得到很好的利用,这部分数据主要是非结构化数据。

  结构化数据是指在固定字段集合中存放的数据,如关系型数据和电子表格数据,属于传统的数据技术。非结构化数据是指难以用数据库二维逻辑表表现的数据,包括文本数据以及未标记的视频、音频和图像数据等。半结构化数据则介于两者之间,是用标签和其他标志划分数据元素的数据,可扩展标记语言和超文本标记语言都属于半结构化数据。广义的非结构化数据包括了半结构化和多结构化数据。

  非结构化数据目前普遍被认为占数据总量的85%以上,而且增速比结构化数据快得多,有说法是快10-50倍。尽管上述数据的准确性有待研究确定,但无法否认的是,非结构化数据富含难以估量的价值,然而如何管理非结构化数据,把“数据坟墓”变成“数据金矿”却是一项新的挑战。

  在医疗行业,既存在结构化的电子病历数据,也存在非结构化数据,包括病人描述病情的自然语言以及临床产生的X光片、CT(计算机X射线断层扫描)片、核磁共振片、病理切片等影像文件。这些数据在资料传递交换、临床全面展示和医学科研等方面有重要的价值,然而对于它们的整合利用还处于非常初级的阶段。再比如,到银行办理存贷款业务时,要复印很多证件,户口本、身份证、收入证明等,这些纸质原始资料都会以扫描或拍照的形式转化为电子文档,被永久保存起来。目前这些文档只起到了备查的作用,并没有被很好地开发利用。

  非结构化数据管理能力是大数据的一项核心能力。在IBM发布的白皮书《分析:大数据在现实世界中的应用》中,报告了基于对全球95个国家、26个行业的1 144名业务人员和信息技术专业人士的调研结果。在超过一半的大数据项目中,受访者表示其所在组织采用了先进技术分析自然状态的文本,例如,呼叫中心对话内容的文字记录。这些分析技术包括解释和理解细微的语言特征,包括情绪、俚语和意图等,帮助企业了解客户当前的情绪状态,获得能够直接用于推动客户管理战略的宝贵信息。

  对非结构化数据的开发和利用已经得到国家层面的重视。2012年7月6日,中国正式成立非结构化数据管理标准工作组,负责制定和完善中国非结构化数据管理领域的标准体系,制定相关国家标准,并参与非结构化数据管理的国际标准化工作,从而提升中国在非结构化数据管理领域的整体竞争力。

  物联网

  国际电信联盟发布的互联网报告如此定义物联网:通过二维码识读设备、射频识别装置、红外感应器、GPS和激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网连接,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的一种网络。

  和传统的互联网相比,物联网有其鲜明的特征:

  第一,它是各种感知技术的广泛应用。物联网上部署了海量的多种类型传感器,每个传感器都是一个信息源,不同类别的传感器所捕获的信息内容和信息格式不同。传感器获得的数据具有实时性,按一定的频率周期性地采集环境信息,不断更新数据。

  第二,它是一种建立在互联网上的泛在网。物联网技术的重要基础和核心仍旧是互联网,通过各种有线和无线网络与互联网融合,将物体的信息实时准确地传递出去。在物联网上的传感器定时采集的信息需要通过网络传输,由于其数量极其庞大,形成了海量信息,在传输过程中,为了保障数据的正确性和及时性,必须适应各种异构网络和协议。

  第三,物联网不仅提供了传感器的连接,其本身也具有智能处理的能力,能够对物体实施智能控制。物联网将传感器和智能处理相结合,利用云计算、模式识别等各种智能技术,扩充其应用领域。从传感器获得的海量信息中分析、加工和处理有意义的数据,以适应不同用户的不同需求,发现新的应用领域和应用模式。

  物联网的精神实质是提供不拘泥于任何场合、任何时间的应用场景与用户的自由互动,它依托云服务平台和互通互联的嵌入式处理软件,弱化技术色彩,强化与用户之间的良性互动。更佳的用户体验、更及时的数据采集和分析建议、更自如的工作和生活是通往智能生活的物理支撑。

  例如,“7·21”北京特大暴雨之后,政府采取了很多解决措施,其中重要的一项是在立交桥下安装水位计,水位到一定高度会发出预警,提醒相关部门采取措施,这就是物联网技术的应用。在点位数少的情况下,数据量不够大,只能解决一部分问题。当水位计的点增多后,就会搜集到更多的数据,这样便于发现一些规律并发出预警。正是在物联网的推动下,数据搜集从少数、独立的点变成了大量、彼此连接的网,数据挖掘从对历史数据的挖掘转向对实时数据的挖掘,这就是大数据的意义。

   信息时代的三大定律

  正如牛顿力学三定律奠定了工业文明的基础,信息时代的三大定律也在驾驭着数字文明的快车,从而深刻改变着我们的世界。这三大定律就是摩尔定律、吉尔德定律和麦特卡尔夫定律。

  李开复早在2000年就指出:“这些定律的意义非常重大,它们不一定会永远存在,因为网络经济几乎每天都在改变。但它们完全适用于今天的网络经济,这是无可置疑的。如果遵循它们,就有机会成功;如果不遵循的话,就一定会失败。”

   摩尔定律

  1965年,英特尔创始人之一戈登·摩尔在计算机硬件的发展规律的基础上提出了著名的“摩尔定律”。该定律认为:同一面积集成电路上可容纳的晶体管数目每18个月会翻一番,与此同时,其性能也将提升一倍。

  晶体管的集成度越高,其价格越便宜。在20世纪60年代初,一个晶体管要10美元左右,但随着晶体管越来越小,直到小到一根头发丝上可以放1 000个晶体管时,每个晶体管的价格只有千分之一美分。这就使得物理存储器的性能在不断提高的同时,价格不断下降。1955年,IBM推出了第一款商用硬盘存储器,每MB的存储量需要6 000多美元;而到了1993年,购买1MB的存储量只需大概1美元;2010年,这个价格又下降到不足1美分。多数专家都相信,计算机硬件技术将持续发展,价格还将下跌,直到2020年,摩尔定律将仍然有效。有人据此总结出“贝尔定律”,即保持计算能力不变,微处理器的价格和体积每18个月减小一半。

  根据摩尔定律和贝尔定律,全世界数据存储和处理不仅越来越快、越来越方便,而且越来越便宜。国际数据公司估计,由于计算机技术进步的持续推动,2011年企业创造、采集、管理和储存信息的成本已经下降到2005年的1/6,而同期企业关于数据的总投资2005年以来反而上升了50%。国际数据公司认为,数据产生成本是符合反摩尔定律的,即数据产生成本大概每两年下降50%,而这一趋势起码会持续到2015年。数据产生成本的下降和投资规模的增加成为催生大数据时代的基础。

   吉尔德定律

  吉尔德定律又被称为“胜利者浪费定律”,由乔治·吉尔德提出。该定律认为,最成功的商业运作模式是价格最低的资源将被尽可能地消耗,以此保存最昂贵的资源。在蒸汽机出现的时代,因为蒸汽机的成本已经低于当时传统的运输工具马匹,因此聪明的商人将蒸汽机投入使用。如今最廉价的资源就是计算机及网络宽带资源。据此,吉尔德预测:未来25年,主干网的带宽每6个月将翻一番,其增长速度是摩尔定律预测的中央处理器增长速度的4倍。

  根据国际数据公司的统计数据,2005年的全球数据流量为1 300亿GB,到2010年,这个数据增加了近900%,达到了12 270亿GB,过了两年,到2012年,数据量又翻一番。预计到2020年,数据流量将是2010年的30多倍,达到40ZB。数据流量近几年每年翻一番的现实使得对数据基础设施的需求和投资极为旺盛。今天,几乎所有知名的电信公司都在乐此不疲地铺设缆线。而当带宽变得足够充裕时,上网的成本也会下降。

  根据吉尔德的观点,在可预见的将来,总有一天,人人可以免费上网。他认为正如20世纪70年代昂贵的晶体管如今变得如此便宜一样,主干网如今还是稀缺资源的网络带宽,有朝一日会变得足够充裕,上网的成本也会大幅下降。实际上,在美国,今天已经有很多互联网服务提供商向用户提供免费上网服务。

  随着带宽的增加,将有更多设备能以有线或无线的方式上网。而移动通信技术的发展则产生了3G(第三代移动通信技术)。3G与2G(第二代移动通信技术)的主要区别是传输声音和数据的速度上的提升,3G手机等移动客户端因此具有了处理图像、音乐和视频流等多种媒体信息的能力。4G(第四代移动通信技术)则集3G与WLAN(无线局域网络)于一体,能够以100Mbps(兆位/秒)的速度下载,比拨号上网快2 000倍,上传的速度也能达到20Mbps。4G网络能够传输高质量的视频图像,满足几乎所有用户对无线服务的要求。如同各行业的营业执照一样,由工业和信息化部许可发放4G牌照后才可经营4G业务。目前,中国移动、中国电信、中国联通已获颁4G牌照。而中国移动则表示,到2013年年底,中国移动4G网络覆盖将超过100个城市,4G终端采购将超过100万部,覆盖人口超过5亿,从而建成全球最大的4G网络。

  移动互联业务的迅猛发展已经让部分人率先体验到了“永远在线”的工作与生活方式。移动社交将成为客户数字化生存的平台,移动广告将是移动互联网的主要盈利来源,手机游戏将成为娱乐化先锋,手机电视将成为时尚人士新宠,移动电子阅读填补狭缝时间,移动定位服务提供个性化信息,手机搜索将成为移动互联网发展的助推器,手机内容共享服务将成为客户的黏合剂,移动支付蕴藏巨大商机,移动电子商务、移动电子政务的春天即将到来。

  泛在计算

  支撑物联网的技术基础是泛在计算,而实现“无所不在计算”的网络称为泛在网。

  泛在计算强调和环境融为一体的计算,而计算机本身则从人们的视线里消失。在泛在计算的模式下,人们能够在任何时间、任何地点以任何方式进行信息的获取与处理。它的核心思想是小型、便宜、网络化的处理设备广泛分布在日常生活的各个场所,计算设备将不只依赖命令行、图形界面进行人机交互,更依赖“自然”的交互方式,计算设备的尺寸将缩小到毫米甚至纳米级。

  在泛在计算的环境中,无线传感器网络将广泛普及,整个世界是一个网络的世界, 数不清的为不同目的服务的计算和通信设备都连接在网络中, 在不同的服务环境中自由移动。泛在计算的目的是建立一个充满计算和通信能力的环境,同时使这个环境与人们逐渐地融合在一起,在这个融合空间中,人们可以随时随地、透明地获得数字化服务。平板电脑等移动设备、谷歌文档或远程游戏技术等云计算应用程序、4G或广域WiFi等高速无线网络将整合在一起,削弱计算机作为获取数字服务的中央媒介的地位。随着每辆汽车、每台照相机、每块手表以及每台电视都拥有几乎无限的计算能力,计算机将彻底退居幕后,以至于用户感觉不到它们的存在。
  近年来,在物联网、互联网、电信网和传感网等网络技术的共同发展下,实现社会化的泛在网也逐渐形成。而基于环境感知、内容感知的能力,泛在计算为个人和社会提供了泛在的、无所不含的信息服务和应用。如今,随着手机支付、医疗监控等一批移动通信新应用的不断涌现,有望促成移动通信网向智能网络的成功转型。与此同时,为了适应泛在计算兴起的需求,移动通信网也必将迎来一系列的变革。

   麦特卡尔夫定律

  麦特卡尔夫定律的提出者为以太网的发明人罗伯特·麦特卡尔夫。该定律认为,网络的价值同网络用户数量的平方成正比,即N个连结能够创造出N的平方的效益。

  麦特卡尔夫定律的核心思想是“物以多为贵”。举例来说,电话是一个人打给另一个人,信息是从一个端口到另一个端口,得到的效益是1;一个电视节目N个人同时收看,信息是从一个端口到N个端口,得到的效益是N;在互联网上,每个人都能够连接到N个网站,N个人能看到N个网站上的信息,这样得到的信息传送效益是N的平方。也就是说,上网的人数越多,产生的效益越大,互联网的价值随着用户数量的增加而呈算术级数增长或二次方程式的增长。因此,无论是伊拉克战争,还是科索沃战争,轰炸的目标都是选在网络的节点上。这是因为网络的节点对网络的功能至关重要。如果进攻节点,破坏网络的效能也是事半功倍。

  传统经济时代最稀有的东西是最有价值的,所以人们为使自己立于不败之地,往往不愿意共享技术和信息,也就是中国人常说的“独门绝技”。但在网络经济时代,共享程度越高,拥有的用户群体越大,其价值越能得到最大程度的体现,而闭关自守、不愿将信息和技术与他人共享是没有出路的。因此,如何充分领会麦特卡尔夫定律的实质,转变思想,摆脱传统模式,进一步适应网络经济时代的新挑战,已经成为所有组织必须考虑的问题。

  麦特卡尔夫定律背后的理论是网络外部性,即使用者越多,对原来的使用者而言,其效果不会如一般经济财产人越多,分享越少,反而其效用会越大。信息资源的奇特性不仅在于它是可以被无损耗地消费的,而且信息的消费过程可能同时就是信息的生产过程,它所包含的知识或感受在消费者那里催生出更多的知识和感受,消费它的人越多,它所包含的资源总量就越大。

  按照摩尔定律和吉尔德定律,未来的计算机成本将持续回落,网络将呈指数级发展;随着网络用户数量迅速膨胀到数以亿计,网络的价值越发不可估量,这又与麦特卡尔夫定律不谋而合。这三大定律是有机统一的,它们勾勒出信息技术发展的历程,也是大数据运作的基础。

  第四章 思维变革:大数据主义来袭

  IBM资深大数据专家杰夫·乔纳斯提出要让数据“说话”。这听起来很平常,但是要做到并不容易。

  随着数据量越来越大,数据格式越来越多元化,数据产生的速度越来越快,数据的处理也变得越来越困难。如何应对大数据是摆在我们面前的大考验。如果处理不好,大数据就会成为大包袱、大问题;如果应对得当,大数据则会带来大价值。但要做到这些,首先需要就我们对于数据价值的认知、利用进行一次颠覆性的改变。

   一切皆可量化

  测量一切可以测量的东西,把一切还不能测量的东西变成可以测量的东西。

——伽利略

  “不会量化就无法管理”已成为管理学界的共识。借助“一切均可量化”的技术背景与思维方式,在这场大数据的思维革命后,未来的政府以及企业可以获得更多基于管理对象的知识,以精准地量化和管理,实现更可靠的预测和更明智的决策。

   我们的数字足迹

  “一切皆可量化。”这是斯蒂芬·贝克在《当我们变成一堆数字》一书中提出的观点。

  在那本汇聚数字报告和分析的力作中,斯蒂芬·贝克向我们展示了我们正在进入一个鲜活的量化世界,告诉我们谁在支配人类:每一天,我们的身后都拖着一条由个人信息组成的长长的“尾巴”,我们点击网页、切换电视频道、驾车穿过自动收费站、用信用卡购物、使用手机等行为-这些过去完全被忽略的信息,现在都通过各种方式被数据化记录下来。数学精英正千方百计地以惊人的准确性测量和剖析我们的每个举动,将我们标注为工薪族、购物者、恋人、选民、博主,甚至抑郁症患者。

  基督教有谚云:“凡走过必留下痕迹。”通过社交网络、电子邮件、移动电话、医疗交易和在线信用卡交易等多种方式,每个人日常生活都在被数据化,甚至是某些非结构化的文字、方位信息、沟通信息,通过信息技术的发展,尤其是语义网技术的应用,都转换为可处理的数据。

  耶鲁大学计量经济学和法学教授伊恩·艾瑞斯在《超级数字天才:为什么用数字思考是变聪明的新方法》一书中谈到,每个人的各种个人信息,即经常在哪个商店购物、常买哪个牌子的衣服,甚至每一次消费的记录、收到的每一张超速罚单,人类在生活中产生的足迹都可以被数据化地记录。

  现代记录和存储信息的技术进步让这些数字足迹纷纷现形,大大丰富了公共管理的手段。美国政府已经着手进行恐怖分子追踪的大数据挖掘计划。美国政府认为如果恐怖分子要策划一次袭击,必定会在各个角落留下某种痕迹,通过对在各个部门产生的这些数据进行挖掘,就能发现和追踪恐怖分子。广东省地税集中征管信息系统系统自动将采集的异常征管数据变为任务模式,主动推送给税收管理员,帮助税收管理员清楚了解纳税户现有和潜在的不规范的纳税行为,增强税源管理的针对性和实效性,同时也为纳税人降低了纳税遵从风险。

  佛蒙特大学的幸福测试仪

  幸福能够测量吗?2011年,佛蒙特大学的克里斯多夫·丹佛斯主持了一项关于幸福感的研究,不仅检测出了世界各地人们的幸福度,还研究出了幸福度与地理位置这两类看似风马牛不相及的信息之间的关系。

  一条微博不仅能反映当下的热点话题,还会暴露发布者的情绪信息和位置信息。丹佛斯从全世界逾18万用户发布的3 700万条推特信息中,筛选出带有用户精确地理位置信息的信息,这类信息约占总体的1%。为了评估用户的幸福度,佛蒙特大学的研究小组研制了一种幸福测试仪:这种测试仪能检测出文本中表示积极、快乐情绪的词汇(比如,“新鲜的”、“极好的”、“咖啡”和“午餐”)以及表示消极情绪的词汇(比如,“没有”、“不”、“讨厌”、“该死的”、“无聊的”)。幸福测试仪会以此为根据,评出每一条信息的幸福指数。

  丹佛斯感兴趣的问题是:信息的内容怎样随用户离家距离的变化而变化。那么怎样才能知道用户的家在哪里呢?当数据搜集上来后,结果一目了然。人们通常会有两个最常去的地方,且这两个地方相距不远,其中一个是家,另一个就是工作地点。

  研究还发现了另一个有意思的现象:离家越远,人们所发信息中含有的开心词汇越多。所以,如果你感觉情绪低落或者工作劳累、焦虑,那么就来一次说走就走的旅行吧!

   发现未知的数据世界

  通过GPS,方向和位置可以被数据化;对微博状态进行分析,心情能够被数据化;安装了感应器,空气质量能够被数据化……信息技术的发展为我们打开了一扇大门,世界上那些从未被量化过的层面顿时以丰富多彩的数据形态呈现在我们面前。

  对学校教育而言,最大的难题是如何克服一对多讲授的不足,为每个学生提供个性化的、持续性的指导和评价。现在的在线课堂可以做到这一点。

  如果你还认为在线教育就是一个镜头、一段远程视频,实在是低估了它的实力。现在的在线课堂其实是一个学习行为量化与数据搜集的大师。它能够记录你在一张幻灯片上停留的时间,判别你在答错一道题之后有没有再次复习,统计你在网上提问的次数、参与讨论的情况,然后在这个基础上对你的学习行为进行诱导和评价。

  为了搜集尽可能多的学习行为数据,哈佛大学和麻省理工学院斥巨资打造了大量优质课程,免费供世界各地的学习者们使用。这些数据将被用来改进学校教育,进而巩固其在教育界的领航者地位。

  诚如舍恩伯格所预言的那样:“将世界看作信息,看作可以理解的数据的海洋,为我们提供了一个从未有过的审视现实的视角。它是一种可以渗透到所有生活领域的世界观。”

  政府等公共管理和服务机构目前就坐在这样一个尚未开发的“信息喷泉”上。例如,监控摄像如果仅用于安全保卫,就是一项纯粹的成本支出。通过大数据技术,数据能够投入不同的领域,实现“一份钱两份货”,监控摄像甚至被视为一项可以增加收入的投资。从视频中挖掘人流数据、车流数据,分析其身份特征、行走路径、停留模式和聚集热点,对城市的规划和管理都极有价值。结合时间线,从无数摄像头搜集到的信息,还可以看出一个区域、一个城市的变化,比如,是更多的店铺在装修开张,还是更多的在歇业,新出现了更多的饭店,还是更多的服装店等。这些变化汇集起来,我们可以看到经济趋势、自然环境的变化甚至人们快乐和紧张的程度。

  一切事物背后都隐藏着未被发掘的数据。如果你没有大数据的理念,很可能与很多有价值的数据失之交臂。比如某城市的公交车因为不分段计价,所以能够反映重要通勤信息的数据被工作人员“自作主张”地丢弃了。一旦思维转变过来,数据就能被巧妙地用来激发新产品和新型服务。

  谷歌数字图书馆

  正如活字印刷取代雕版印刷,将汉字、字母分离,再自由组合到一起,大幅提升了印刷的效率,推动了知识的传播与普及。如今,谷歌电子图书馆正在通过现代识别软件,把纸质书籍、图片数据化。

  谷歌图书馆是谷歌公司于2004年发布的一个颇具理想主义色彩的项目。它通过把国家版权条例允许的书本内容进行数据化,建立一个容量丰富的谷歌电子图书馆,让处于这个世界任何角落的人都可以通过网络阅读,完全实现知识传递的无国界、无距离。

  在项目初期,谷歌主要是使用扫描仪对实体书的内容进行电子化存储,于是珍藏在美国国会图书馆里的书本内容就变成了能在亚洲某个大学教室里使用的电子课件,这种网络的数字化传播方式极大地方便了渴望求知的人。但是这种电子化的读书方式首先需要读者明确自己所搜寻的内容,其次借助搜索引擎在浩如烟海的数字化图书海洋中找到自己需要的内容。因为没有对数字文本的内容进行数据化的处理和分析,谷歌数字图书馆中实际只储藏着这些书本的扫描图片。

  近两年,随着识别软件和通信技术的发展,谷歌得以把这些数字化的图片转化为可处理的数据,使之“跃然纸上”。借助能识别数字图像的光学字符识别软件转化扫描图片上的字、词、句、段,如此处理后,谷歌的数字化图像也就顺利地转化为数据化的内容,让这些信息的潜在价值得到最大程度的释放,打造一个开放又可关联的知识世界。

   万物皆有关联

  “买了这款巧克力的人,也特别喜欢这种果酱。”“你和上面的这些成功人士都会钟爱这个品牌的家具。”这是哈佛商学院客座教授、数据分析专家汤姆·达文波特眼中大数据的运作方式。从数据中寻找相关关系,通过这种关系对未来做出预测,这是大数据方法论的核心思想。

   追踪“蝴蝶效应”

  “一只南美洲亚马孙河流域热带雨林中的蝴蝶,偶尔扇动几下翅膀,可以在两周以后引起美国得克萨斯州的一场龙卷风。”麻省理工学院专家洛伦兹把这种现象称作“蝴蝶效应”。它告诉我们,一件表面上看来毫无关系、非常微小的事情可能与千里之外的一件事情发生关联,并且带来巨大的改变。

  在大数据时代,万事万物都可以被数据化地描述出来,建立特定的模型,通过复杂的计算,向我们呈现一个充满关联的世界。

  你可能很难想到,互联网上的微博评论会与某家公司的股票价格息息相关。在脸谱网首次公开募股当天,推特上的情感先是逐渐转向负面,脸谱网的股价也于开盘25分钟后下跌。当推特上的情感转向正面时,脸谱网股价在8分钟后开始反弹。当股市接近收盘、推特上的情感转向负面时,10分钟后,脸谱网的股价又开始下跌。推特上每一次情感转向都牵动着脸谱网股价的波动。这两者究竟为什么相关,似乎并没有太多人探究,或者很难在短时间内找到一个具有说服力的解释。但如果因为找不到合理的解释,就忽略这种相关性,不得不说是一种损失。

  宾夕法尼亚州立大学生物学家马塞尔·萨拉特和软件工程师沙先克·康德沃通过分析推特上的内容发现,人们对于疫苗的态度与他们实际注射预防流感药物的可能呈现正相关性。他们利用推特用户中谁和谁相关的元数据进行了更进一步的调查,发现未接种疫苗的子人群,进而评估流感爆发的风险。这就是社交网络产生的数据带来的有趣分析和实用价值。

  另一个家喻户晓的相关关系的案例是“啤酒与尿布”。在沃尔玛超市,有一个十分有趣的现象:啤酒与尿布这两种风马牛不相及的商品居然被摆到了一起。之所以这么安排货架是因为超市主管在分析数以万计的消费者购物篮后发现,啤酒和尿布是两种关联商品,经常被同时购买。原来,美国妇女通常在家照顾孩子,她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手拎一打自己爱喝的啤酒。与此类似,菠菜摆在沙拉酱旁边卖得更好,在龙卷风天气应该促销蛋挞,这些看起来荒诞不经的规律实实在在地提高了超市的销量。

  让数据发声,我们会注意到很多以前从来没有意识到的联系的存在。当前,一场发掘数据相关关系、开发数据价值的竞赛正在世界各地上演。它开启了一场寻宝游戏,而人们对于数据的看法以及对于相关关系价值的态度正是主宰这场游戏的关键。

   “是什么”比“为什么”更重要

  一家公司正在从社会化媒体上抓取各种数据,通过寻找影响票房成绩的相关因素预测票房。它针对电影选取30个参数,对演员选取50个参数,包括在哪里长大、毕业学校和毕业时间、扮演过的角色、收视率和票房如何、有过什么绯闻、跟谁关系好、网民评价等。根据这些参数,这家公司预测电影《1942》票房是3.8亿元,会亏本。制片方华谊兄弟认为这家公司是在“黑”他们,但最后的票房真的只有3.6亿元。

  整件事情背后最有意思的是该公司选取的那些貌似古怪的参数。大家知道这些参数和预测结果相关,却并不了解如何相关。换言之,大家只能知道“是什么”,不知道“为什么”。从对因果关系的重视转向对相关关系的渴求,是大数据带给我们的根本性的思维方式转变。

  寻找因果关系是人类长久以来的习惯。即使确定因果关系很困难且用途不大,人类还是习惯提出“为什么”。在日常生活中,人们总是热衷于用因果关系看待周围的一切。科学家们也都在努力探寻现象背后不变的真理与因果关系,以作为后续行为的指导。

  进入大数据时代,如潮的数据涌来,信息更新和环境变迁的速度远快于我们思考和验证的速度,纷繁复杂的关系需要我们快速地梳理,我们无须知道现象背后的原因。

  相关关系也许不能准确地告知我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。在许多情况下,这种提醒的帮助已经足够大。如果电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症,那么找出具体的致病原因就没有这种治疗方法本身重要。同样,只要我们知道什么时候是买机票的最佳时机,就算不知道机票价格频繁波动的原因也无所谓。

  对相关关系的渴求将带领我们走向扁平化的世界,拓展思考领域与眼界,获得理解这个世界的更多角度。我们不再需要在还没有搜集数据之前,就把分析建立在早已设立的少量假设的基础之上。大数据可以让过分沉迷于因果关系的人对世界、对人类自己有一个开放性的解释。

  预测:大数据的核心

  在气象经济学界流行这样一条“德尔菲气象定律”,即气象投入与产出比为1∶98,也就是说,在气象信息方面每投入1元,就可以得到98元的经济回报。一个典型的例子是,气温每降低1摄氏度,北京市燃气供暖系统日消耗天然气将增加约200万立方米。如果提高气象预报的精度,实时对供暖系统进行合理调控,无疑将节省一笔很大的能源消耗和经费开支。

  从有人类智慧起,我们便努力学习预测明天的天气,进而决定是否播种,预测哪块土地不会被河流淹没,预测自己的疾病何时能痊愈,预测子孙能否平安健康。人类一直想要通过认识现在、理解过去,以获得对未来的预测。

  起初,许多人的“知识”是基于迷信和预感,所以在原始社会,“巫师”是一个令人敬畏的群体,因为他们能通过手里的“水晶球”看到未来的世界。

  1947年,第一台计算机问世一年后,管理大师赫伯特·西蒙就像先知一样指出:人类所有的决策都是基于有限理性的结果,如果能利用存储在计算机里的信息辅助决策,人类理性的范围将扩大,决策的质量就能提高。在后工业时代,人类社会面临的中心问题将从如何提高生产率转变为如何更好地利用信息辅助决策。

  而今,用计算机进行预测早已变成现实。大数据变成了转动在人类手上的虚拟“水晶球”,为我们带来了人类直觉和想象无法超越的理性预测。在洛杉矶,警方通过测算未来24小时内最有可能发生犯罪的区域安排巡逻路线,以提升城市安全。在伦敦金融城,一位科学家出身的商人借助自己研发的股市预测模型,找到了利用数学日进斗金的秘诀。在南非,一位天文学家准备通过观察每一颗恒星的信号为整个宇宙编制星表,进而预测下一个小星球的陨灭时间。

  这就是大数据的价值所在。通过对过去和现在的数据进行分析,它能够精确预测未来;通过对组织内部的和外部的数据整合,它能够洞察事物之间的相关关系;通过对海量数据的挖掘,它能够代替人脑,承担管理决策的职责。

  大数据之所以能做出预测,靠的是对相关关系的把握。我们常说“清明时节雨纷纷”,这个结论并不是逻辑推导出来的,而是人们通过多年观察,发现每年这几天总是下雨比较多,于是总结出了这样一个朴素的规律。同样,计算机把数学算法运用于海量数据,通过相关关系预测事情发生的可能性,例如,一封邮件被作为垃圾邮件过滤掉的可能性,输入的“teh”应该是“the”的可能性,从一个人过马路时的轨迹和速度推测他及时通过的可能性。

  只有预测才能做到“未雨绸缪”。美国运输公司US Xpress通过“任何数据都不能少”计划,从成千上万的货车运输系统中搜集了900 个数据元素,包括轮胎和汽油使用的传感器数据、引擎运行、货运车队的地球空间数据,以及货车司机博客上的抱怨。这些数据经过集成处理和分析,对车辆进行预防性维护。你可以预测哪辆车的哪个部件什么时候可能出故障,因此,你不用等到这辆车实际抛锚了再维修。

  如果说传统管理流程是出现问题-逻辑分析-找出因果关系-提出解决方案的事后“救火”模式,大数据战略下的管理流程则是搜集数据-量化分析-找出相互关系-提出优化方案的正向思维模式。越早用大数据武装自己的思维,获得最佳预测的机会越多。接下来,就让大数据“水晶球”转动起来。

  用大数据拍一部热播美剧

  2013年最火的一部美剧当数《纸牌屋》。世界上最大的在线影片租赁服务商Net。ix花1亿美元买下《纸牌屋》的版权,请来大卫·芬奇和老戏骨凯文·斯贝西,首次进军原创剧集就一炮而红,在美国等40多个国家成为最热门的在线剧集。那么在开拍之前,Net。ix是否知道《纸牌屋》会火呢?

  Net ix官方称挖掘其用户行为的大数据已经很长时间了,《纸牌屋》是其数据分析结果的第一次战略运用。用户只要登录Net ix网站,对某一个视频的每一次点击、播放、暂停、快进、回放,看了几分钟就彻底关掉视频,或者停了一段时间又重启,都会成为一个“事件”,被记录下来并汇入后台进行分析。Net ix或许并不能准确知道用户点击暂停按钮的个人原因,但是如果足够多的人在整段视频中的同一个地方有相同的举动,那么数据就显露出意义了。

  结果是,Net.ix比观众还要清楚我们的观影喜好。它已经知道用户很喜欢芬奇(《社交网络》、《七宗罪》的导演),也知道斯贝西主演的片子表现都不错,还知道英剧版的《纸牌屋》很受欢迎,三者的交集表明,值得在这件事上赌一把。此外,Net ix还通过大数据观测到另一流行趋势:越来越多的人不再像30年前那样,在每晚的固定时刻守在电视机前,等着收看最新剧集,而是“攒”起来,直到整季全部播放完毕之后,才选一个自己方便的时间段和地点,在方便的设备(多数是网络设备,如电脑和平板电脑)上一次性观看。因此,《纸牌屋》的播出方式没有遵循每周一集的惯例,而是第一季全集同时上线。基于3 000万北美用户观看视频时留下的行为数据,Net ix大胆做出了以上种种有违电视业常规的决定。昔日的内容发行商改行做了内容制造方,这就是大数据预测的魅力。

   庞杂赢得胜利

  “大象无形”出自老子的《道德经》,可以理解为世界上最巍峨的气势往往并不拘泥于一定的规则和格局,而是表现出气象万千的形态,无法捉摸。但在大数据时代,这种无法捕捉的“气”和“形”也许会随着技术的发展被描绘出来。

   全景式观察与盲人摸象

  过去,随机抽样一直被公认为一种最有效率的数据搜集方法。样本选择的科学性比样本数量更重要,统计学家这样告诉我们如何精确预测。抽样的目的是用最少的数据得到最准确的信息,抽样的科学程度(尤其是样本的随机性和代表性)对于统计结果的准确性至关重要。在传统数据思维下,寻找更大的样本量根本没有必要。因为当样本量达到一定程度后,我们从新增的个体样本上获得的信息只会越来越少,呈现出边际效应递减的规律。因此,并不是数据越大越好。

  然而,统计学家们已经开始抱怨抽样方法的缺陷:它注定让我们无法观察事物全面的细节,抽样结果会受到主观偏见的影响,有如盲人摸象。有人说,用抽样的方法分析整体人口状况时,正确率能达到97%,但也许正是那被忽略的3%会完全颠覆已有的结论,尤其是当我们想了解更深层次的微观情况时,抽样方法就有些爱莫能助了。例如,1 000人看似是一个比较大的样本,但如果将研究对象细分至一线城市大龄单身女性,符合条件的可能只有10多个样本。从这样小规模的数据中,无法分析出任何有意义的结论。

  即便不抽样,动员大量人力、物力进行普查,也是在事先确定调研问题和被访问人群后才开始执行的。从有限的问卷题目中,注定只能看到事物的某几个方面,无法获得更加客观和深入的信息。

  以前由于缺乏存储和处理全量数据的工具,我们通常把这种无奈看作理所当然。在大数据时代,“样本=全体”的数据处理模式已经成为可能。我们可以分析更多的数据,而不再依赖于随机抽样。

  谷歌可以提供谷歌流感趋势的原因就在于它几乎覆盖了7成以上的北美网络搜索市场,而在这些数据中,已经完全没有必要抽样调查这些数据:所有的记录都在数据仓库躺着等待人们挖掘和分析。

  大数据导航的自动驾驶汽车能够实现360度全方位感知,安装在驾驶室内的摄像头会识别交通指示牌和信号灯,轮胎附近的传感器可以根据速度和方位推算汽车当前所在的位置,而连接GPS和谷歌地图的路线系统可以让它找到通往目的地的最快捷路线。

  纽约警方通过分析案件与发薪日、体育赛事、天气变化、假日等变量的相关性,预测最可能发生罪案的“热点”地区,并预先在这些地区部署警力。无论是从时间纵向上来看,还是部门间数据联动的横向上来看,这种数据搜集视野都呈现出全景式的特点,从而更加富有生命力。

   拥抱数据的杂乱

  执著于精确性是信息缺乏时代的产物。传统的数据分析师很难容忍数据中存在的错误和噪声,他们会花大量的精力让数据更加精确和标准,提升基础数据的精准度以降低分析结果的错误概率。

  当我们测量事物的能力受限时,关注最重要的事情和获取最精确的结果是可取的。如果购买者不知道牛群里有 80头牛还是 100头牛,那么交易就无法进行。因为需要分析的数据很少,所以我们必须尽可能精准地量化我们的记录。在大数据时代,很多时候,追求精确度已经变得不可行,甚至不受欢迎了。例如,一个小商店在晚上打烊时要把收银台里的每分钱都数清楚,但是我们不会,也不可能用“分”这个单位精确计算国民生产总值。

  曾经我们大部分的习惯都建立在一个预设立场上,即用来进行决策的信息必须是少量、精确且至关重要的。然而,当数据量变大、数据处理速度加快且数据变得不那么精确时,这些预设立场都不复存在了。随着互联网的发展,特别是社交媒体、电子商务以及智慧终端的快速发展,数量巨大的数据碎片时刻都在产生。这些数据来自不同的渠道、不同的领域,有着不同的格式与标准。数据的杂乱变得不可避免,如果只是执迷于数据的精确性,你可能会感到无所适从。

  在大数据时代,我们完全可以用一种更轻松的心态看待杂乱性,并接受它带来的精确性问题。试想,如果杂质是偶然的,它一定会被更多的正确数据淹没;如果噪声存在规律,足够多的数据可以发现这个规律,从而过滤噪声;如果误差是内在的必然性,更多样化的数据采集和信息融合也必然能纠正误差。例如,GPS在监测地理位置时可能有几十米的误差,但加上了地图数据可以保证导航准确性。基于单个摄像头的车牌抓取和识别可能受光照条件、空气能见度、车辆运行速度和遮挡情况的影响,但获得的部分信息(不完整车牌和车辆特征),可以与其他摄像头获取的信息进行对照和相互印证。现代技术让我们能够对庞杂的数据进行快速高效的整理,帮助我们做出更好的决策。

  大数据所依仗的就是数据量大。要想获得大数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。接受数据的不完美和不精准,承认它们的杂乱,我们才能够更好地进行预测,更好地认识和理解世界万物。一旦我们能正确地看待各类数据存在的价值,我们就会发现完全不必为数据的杂乱烦恼,拥抱数据的杂乱让我们进一步接近事实的真相,更加全面地认识这个世界。这就是大数据最美的地方。

  基于数据发现的五种知识类型

  (1)广义型知识:根据数据的微观特性发现其表征的、带有普遍性的、高层次概念的、中观或宏观的知识。

  (2)分类型知识:反映同类事物共同性质的特征型知识和不同事物之间差异型特征知识。用于反映数据的汇聚模式或根据对象的属性区分其所属类别。

  (3)关联型知识:反映一个事件和其他事件之间依赖或关联的知识,又称依赖关系,这类知识可用于数据库中的归一化、查询优化等。

  (4)预测型知识:通过时间序列型数据,由历史的和当前的数据预测未来的情况,它实际上是一种以时间为关键属性的关联知识。

  (5)偏差型知识:通过分析标准类以外的特例、数据聚类外的离群值、实际观测值和系统预测值间的显著差别,对差异和极端特例进行描述。

   数中自有黄金屋

  舍恩伯格在演讲中说:“我们可以看到一个全球性的趋势,就是从原来的生产制造的思维方式到把自己视作一个数据的平台。”未来竞争优势不一定来自制造,而是来自数据,来自搜集、分析和使用数据的能力。

  数据的价值从来没有像现在这样受到人们的重视。通过思维变革,重新审视自己在这个大数据时代所处的位置,应当是每一个身处大数据时代的组织和个人必须思考的问题。

   把数据负担变成数据红利

  在过去很长一段时间里,数据记录、存储和分析的工具都无法应付数据量的快速增长,越来越多的数据并未给我们的生活带来任何改变,而是变成了一种负担。有人把这种情况下形成的数据利用思维称为数据小农心态,其表现是:对数据拣着测、挑着存、采着样来处理,总是幻想能够从最少的数据压榨出最多的信息。

  在大数据时代,决策者需要通过一场思想启蒙运动树立这样的大数据观:数据不是累赘,采完、用完数据不要急着扔掉,把它存起来,因为数据的存储和搬运成本越来越低,而数据的价值将越来越大。

  “数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在海面之下。”舍恩伯格不止一次地强调由数据产生的知识价值。“数据的价值在变。以前小数据的时代,数据的价值是一次使用的价值,也就是在我们搜集使用一次之后就没用了,但是在未来真正的数据价值在于一而再、再而三地使用这些数据,它的价值从第一次使用到第二次使用可能会翻两番,所以数据的再使用更重要。”

  Inrix是美国西雅图的一家交通数据公司,它的业务是帮助人们导航,用实时的交通流量数据帮助上下班的人避开交通堵塞。然而最近,它开始做起了经济预测的生意。

  2011年,美国经济复苏放缓,虽然政治家们极力否定这一事实,但是增长放缓的信号还是被Inrix披露了出来。Inrix分析发现,上下班高峰期的交通状况变好了,说明失业率上升、经济状况变差了。同时,Inrix把它搜集到的数据卖给了一支投资基金,这支投资基金把交通情况视作反映一家大型零售商场销售量的信号,一旦附近车辆增多,就说明商场的销售量会增加。在商场的季度财政报表公布之前,这支基金还利用这些数据分析结果置换了商场的一部分股份。大数据的分析和重复使用为Inrix创造了巨大的价值。

  不同于物质性资源,大数据资源的使用是非竞争性的。数据的价值不会随着它的利用率提高而减少,数据可以不断被处理、不断产生新的价值。而今,数据不再是静止和陈旧的。对已有数据进行创新整合、多次挖掘,已成为抢占数据红利的强大武器。

   大象与蚂蚁共同起舞

  对于大数据落地的可行性,你的脑海里可能产生一个疑问:大数据对于那些资金充足、装备了高科技的大型组织而言能够发挥强大的作用,但是现在在中国,大量存在的都是传统的组织、中小型组织,它们如何利用大数据构建竞争优势呢?你可能还会问:目前,我没有身居高位,资源调动能力有限,我能够在本职岗位做点儿什么?

  这两个问题回答起来既简单也复杂。

  简单是因为在大数据时代比拼的不是规模,而是思路。

  以往,人们认为组织规模越大越好,组织大才能实现规模效应,组织大才能钱多好开路、人多好办事;认为要启动大数据,就必须投资建自己的数据库,建大量的信息基础设施。就像网络搜索巨头公司谷歌,它拥有100万台服务器,办公机构遍布全球各地,这是以规模制胜的。而在大数据时代,大象和蚂蚁一起跳舞,大组织和小组织所面临的机会是均等的。资金已不是制约发展的首要障碍,技术的难题得到解决,需要比拼的核心竞争要素是是否具备大数据的思路。一家网络公司每天要处理的数据量达到数十亿,但是这家公司规模却很小,只有30人,而且它自己连一台服务器都没有,完全通过云的基础架构得以实现。

  思路决定出路,眼光决定成败。要笑傲数据江湖,首先必须成为一个大数据主义者,要意识到数据的重要性,意识到数据是组织成功的重要资源;要对传统的数据利用思维进行变革,拥抱数据的杂乱,积极寻找万事万物之间的数据关联;要告别“数据小农”心态,积极把数据负担变成数据红利。如果你能想明白这些事情,那么恭喜你,你已经在大数据时代抢占了先机。

  接下来再回答复杂的问题。

  大数据是成为组织内最大的资产,还是成为其最严重的负担,取决于为应对数据量、复杂性、多样性和快速度所部署的战略和解决方案。然而实际情况是,我们的很多组织并没有足够多的数据和足够强的数据搜集、处理能力。

  面对扑面而来的大数据热潮,我们应当还原其本质,将精力放在应该投放的地方:数据采集的渠道够广吗?数据汇聚的能力够强吗?数据管理是不是过于复杂?数据处理能力是不是太弱?数据分析是不是缺少智能?数据的呈现是不是易用性与友好度不高?在可预计的未来,这些都将成为组织和个人的一种基本能力。在下一章,我们将就这些问题进行深入的探讨。

发布时间:2014年06月09日 16:52 来源:中信出版社 编辑:阮玉秀 打印