手机版
1 1 1

《大数据时代:党员干部的12堂必修课》

共产党员网 打印 纠错
微信扫一扫 ×
收听本文 00:00/00:00

【精彩书摘】

第一章大数据时代的机遇和挑战

“在洛杉矶,警方通过数据分析,预测12小时内哪个地区最有可能发生犯罪;在伦敦金融城,一位交易员认为,数学计算可成为发财‘秘笈’;在南美,天文学家尝试为整个宇宙进行分类记录……这些迥然不同的领域如今出现同一特征:数据量的大爆发。”这是英国广播公司品牌栏目《地平线》最新播出的纪录片《大数据时代》中的开篇一幕。2011年全球产生的数据量达1.8ZB(1ZB等于1万个GB),并且预计将每年翻番。这一数据量相当于2000亿部时长两小时的高清电影,一个人要连续看4700万年才能看完。的确,无处不在的海量信息正改变着整个世界和我们的生活方式,一场大数据革命悄然来临。“大数据”(bigdata)是指大量、高速、复杂、变化不定的数据,需要用先进的方法和技术实现信息的收集、存储、分配、管理和分析。人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。哈佛大学社会学教授加里•金指出:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”它指的是对规模巨大的资料量进行专业化的撷取、管理和处理,使之成为帮助企业和社会发展的有效资讯。

一、认识大数据时代

数据古已有之,人类利用数据的历史也至少有几百年,近几年有了快速发展;数据也不一定要用阿拉伯数字来记录,文字、音频、视频也是其常见格式,如今变得更加复杂,人的情绪、感觉等将来都可以成为数据。近年来,随着信息技术的发展,数据量正在飞速增长,过去两年的累积数据量已超过了以往所有历史的总和。据统计,2010年以互联网为基础所产生的数据比之前所有年份的总和还要多;而且不仅是数据量的激增,数据结构亦在演变。Gartner统计,2012年半结构和非结构化的数据,诸如文档、表格、网页、音频、图像和视频等占全球网络数据量的85%左右;而且,整个网络体系架构将面临革命性改变。大数据时代已经来临!

究竟什么是大数据?大数据并没有标准定义,国际上通常用“四个V”来描述大数据的特征,即Volume(数量)、Value(价值)、Variety(多样性)和Velocity(增速)。一般来说,人们没法处理或者很难处理的数据的量就可以叫大数据。对于大数据时代,目前通常认为有下述四大特征,称为“四V”特征:

1.量大(VolumeBig)

到目前为止,人类生产的所有印刷材料的数据量是200PB(1PB=1000TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=1000PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。

2.多样化(VariableType)

数据类型繁多,愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。传感器、平板电脑和移动电话等产生信息的设备继续成倍增。随着全世界的联系更加紧密,社交网络也在加速发展。这些共享信息的选择意味着公众、政府和企业间互动方式的根本转变。

3.快速化(VelocityFast)

数据流往往为高速实时数据流,而且往往需要快速、持续的实时处理;处理工具亦在快速演进,软件工程及人工智能等均可能介入。

4.价值高和密度低(ValueHighandLowDensity)

以视频安全监控为例,连续不断的监控流中,有重大价值者可能仅为一两秒的数据流;360°全方位视频监控的“死角”处,可能会挖掘出最有价值的图像信息。

大数据的这些特征将决定政府在大数据业务和整个大数据生态系统中收集、分析、管理、存储及分配数据的方式。

数据无处不在,数据来源呈多样化趋势,大数据的时代特征正在呈现。从TB、PB、EB到ZB的发展,预示着数据信息的生产和消费群体将迅速扩大,社会的每一个领域甚至每一个个体都成了数据资源的生产源,信息爆炸已经积累到了一个开始引发变革的程度——“大数据”的概念诞生并被应用到了社会的各个发展领域中。

二、大数据的积极影响

(一)大数据广泛影响社会生活

大数据让人可以被量化,却让机器能思考,因此有人说工业革命把人变成了机器,而信息革命则把机器变成了人。如,人们感冒以后,就常常上网搜索:“感冒吃什么药”。一个地区在一个时间段内搜索“感冒”这个关键词的明显增多,公共卫生部门就会警惕,着手监测流感。人们的网络痕迹,从前也许只是占据缓存的“垃圾”,而现在正变成大数据金矿。人们的搜索痕迹可以让服装公司计算出流行色;人们的微博数据让情绪可以被量化,影视公司以此预计电影票房;人们的网络社交圈可以让网贷公司评估出信用。而人们的手机简直就是一个“移动间谍”,持手机人的位置、数据被无处不在的“第三只眼”看着。未来,也许每个人身旁都漂浮着一个屏幕,对不同的人开放不同的权限,我们眨眨眼就可以查阅他的相关信息:朋友圈、搜索痕迹、资产、信用、医疗档案等等。大数据和可穿戴设备可以将这一切从未来影片中带入现实。2010年上海世博会也曾根据当日数据分析,发布第二日入园客流量预报。还有比如街景汽车和卫星定位系统积累了大量的地面数据,不仅可以用于制作电子地图和导航,还能开发出自己会认路的无人驾驶汽车。未来,数据世界和机器世界将无缝对接,让机器能听会说拥有智慧并非幻想。

当今时代,大数据已经深入到方方面面。城市电子医疗卫生平台、基于电子标签的食品安全追溯体系、水资源管理的智慧系统,都是大数据大有可为之地。电子商务推荐引擎会根据用户浏览的历史记录,分析其偏好后,给用户推荐符合其偏好的商品。传统的统计数据往往是通过数字来表达的,而在大数据时代,我们面临更多的是非结构化的数据,比如图像、文本、日志,还有比如百度的搜索数据。这些数据都从微观层面反映了社会经济、人们日常生活行为的方方面面。如果我们能够把现有的这些数据都收集起来进行深入的分析和挖掘,就会发现这些数据当中隐藏着更深刻的规律和现象,就能更好地服务于政府决策和社会各方面的需求,大数据的真正价值就体现在这里。大数据广泛应用于医疗、教育、交通、税收等社会生活领域。

对于医疗服务的提供方和支付方来说,在减少医疗成本的同时不断提高医疗质量和效率仍然是一个难以实现的目标,而这也是改善民生的重大机遇。2010年,全美医疗支出占国内生产总值的17.9%,比2000年增长13.8%。而且,某些慢性疾病如糖尿病的患病率正在增加,正在消耗更多的医疗资源。对这些疾病和其他相关健康服务的管理将深刻地影响国民的福祉。在这方面大数据可以发挥作用。为在广大人群中取得最有效的医疗效果,更多地使用电子健康记录(电子健康档案),并与新的分析工具相结合。研究人员可以利用信息寻找有效的统计趋势,并依据真实的医疗服务质量开展医疗评估。

通过完善信息和自动驾驶功能,大数据有可能在许多方面彻底改变交通的面貌。开车的人多,交通堵塞就多,其后果是浪费能源,造成全球气候变暖,耗费时间和金钱。手持设备、车辆和道路上的分布式传感器则可以提供实时交通信息。这些信息,再加上更好的自动驾驶功能,可以使驾驶更安全,交通堵塞更少。智能汽车日益互联的新型交通生态系统有可能彻底改变道路使用方式。

大数据可以对教育及其在全球经济中的竞争力产生深远影响。例如,通过深入地跟踪和分析学生的在线学习活动——精细至每个鼠标点击动作,研究人员能够确定学生的学习方式和提高学习的方法。这种分析可以针对成千上万的学生进行,而不是孤立的小型研究。课程和教学方法,无论是在线的,还是传统的,都可以根据大规模分析所收集到的信息进行修订。

由于迅速发现异常的能力日益增加,政府税务部门可以缩小“税收缺口”,即纳税人应付税款与其自愿缴税额之间的差额,并且对于那些试图进行不当纳税申报的人,会深刻地改变他们的行为方式。大多数税务机构实行“自愿缴税与追讨欠税并举”的模式,在这种模式下,它们接受纳税人的纳税申报单并办理退税,并对一部分纳税申报单进行抽查,以找出有意或无意欠税的情况。大数据还能够提高欺诈检测的水平,在纳税申报之初就揭露违规情况,减少问题退税的发放。

(二)大数据具有商业价值

2013年11月20日,美国《福布斯》(Forbes)杂志官网发表文章《大数据:不仅是流行词,更是一场运动》(BigData:It'sNotABuzzword,It'sAMovement)称,商业领域的大数据应用是一种趋势。美国天睿公司创建人之一马扬克·巴瓦(MayankBawa)认为,“未来十年大数据将成为商业发展的最大驱动力。”数据正在创造意想不到的价值和财富,任何行业、任何领域都会产生有价值的数据,价值需求由市场来创造,产生价值的方式则是对数据的统计、分析、挖掘和人工智能。有分析认为,仅人员定位数据一项就可能带来约1000亿美元的企业价值,其为用户带来的价值可能数倍于此。

大数据创造价值是基于这样一个核心逻辑,即当今社会在商业、经济、政府及相关领域中,决策行为越来越取决于数据和分析,而不再是经验和直觉。大数据技术可以为决策提供一定的“预见参考”,而成功的分析和预见往往能带来商业和经济价值。说到商业应用,大数据技术创造价值的能力已经在英国崭露头角。一份行业报告显示,英国政府通过高效使用公共大数据技术每年可节省约330亿英镑,相当于英国每人每年节省约500英镑。以连锁零售业为例,英国最大的连锁超市特易购(Tesco)已经开始运用大数据技术采集并分析其客户行为信息数据集。特易购首先在大数据系统内给每个顾客确定一个编号,然后通过顾客的刷卡消费、填写调查问卷、打客服电话等行为采集他们的相关数据,再用计算机系统建立特定模型,对每个顾客的海量数据进行分析,得出特定顾客的消费习惯、近期可能的消费需求等结论,以此来制定有针对性的促销计划并调整商品价格。这种有的放矢的营销和定价模式为特易购提供了更加高效的盈利方法。

(三)大数据将带来科学革命

有学者关注大数据的整体与系统性影响。2013年11月22日《华尔街日报》(TheWallStreetJournal)官网发表文章《大数据对社会系统的影响》(TheImpactofBigDataonSocialSystems)称,大数据将为人们带来一场建立在信息之上的科学革命。正如所有科学革命一样,大数据有很多值得学习和探究之处。在过去几个世纪,物理学和化学等“硬科学”模式使科学可以预测不同条件下自然系统的行为。如今个人与组织及其互动对经济社会发展的影响日渐深入,大数据关注的正是这些“非自然系统”,其影响将无处不在。

大数据将为人们带来一场建立在信息之上的科学革命。不久前,美国科学技术政策办公室和“网络与信息技术研发项目”推出了第二轮大数据行动,即“从数据到知识到行动:建立新的伙伴关系”计划。这一计划是对2012年3月奥巴马政府“大数据研发计划”的延续。为响应第二轮大数据行动,加州大学伯克利分校宣布将新建伯克利数据科学研究所。加州大学伯克利分校物理学教授索尔•珀尔马特(SaulPerlmutter)说:“如今越来越多的领域都需要使用大数据分析技术。”该校电气工程与计算机科学系教授大卫•卡勒(DavidCuler)则表示,“计算不只是一个工具,它已经成为科学进程的一个组成部分”,未来不论在自然科学或是社会科学方面,很多研究都将由大数据驱动。

大数据也会带来政治学的革命。2013年11月3日,挪威卑尔根大学比较政治学系教授迈克尔•阿尔瓦雷斯(MichaelAlvarez)在牛津大学出版社博客上发表文章《大数据在政治学领域是否很重要?》(IsBigDataaBigDealinPoliticalScience?)中称,在某些方面,大数据似乎推动了政治学的革命,政治学家利用大数据的技术和方法收集数据、作出假设。他们从社交媒体数据中发现了新研究课题,而这在几年前很难做到。

(四)大数据影响文化生活

大数据带来的信息风暴正在变革我们的生活、工作和思维,它开启了一次重大的代际转型,发动了一次时代的思维变革、商业变革和管理变革。正如中国艺术科技研究所标准研究中心主任闫贤良所说,“无论我们选择与不选择,大数据技术进入文化领域是必然的。大数据打开了文化的窗口,便有新型的文化业态快速成长。传统意义的文化将失去往日的宁静,不再自在自为。”很多文化领域的问题都可以通过数据分析来解决。不过,当前有关大文化与大数据融合的实践还很少,但是随着大数据的发展以及业界对文化发展新路径的摸索,以后肯定会有更多问题可以通过大数据来提升和优化。今年初,美国有一份报告显示,对于云计算信赖的主要结果是促进了大数据的迅速发展,虽然近期难以分析大数据带来的全面影响,但其发展潜力和应用前景不可小视。比如说,图书馆需要考虑用户如何使用个人数据并据此调整图书馆的服务等。大数据时代公共文化服务的需求日益提高,从大数据中分析潜在的价值决定了大数据时代公共文化服务的发展水平和发展方向,大数据时代公共文化服务范围、方式、手段、模式都将发生巨大的变化,数据分析、数据挖掘、数据增值将成为公共文化服务的导向。

三、大数据带来的挑战

作为新生事物,大数据的发展仍面临许多挑战。中国工程院院士、中国互联网协会理事长邬贺铨表示,当前大数据面临的问题主要表现在技术和应用、人才、安全隐私、发展战略等方面。

(一)数据采集和分析问题

中国人口居世界首位,但2010年中国新存储的数据为250PB,仅为日本的60%和北美的7%。我国一些部门和机构拥有大量数据但以邻为壑,宁愿自己不用也不愿提供给有关部门共享,导致信息不完整或重复投资。2012年中国的数据存储量达到364EB,其中55%(200EB)的数据需要一定程度的保护,然而目前只有不到一半(44%,即96EB)的数据得到保护。我国在自主可控的大数据分析技术与产品方面与发达国家相比有不小差距。国内企业在数据库、数据仓库、商业智能分析软件等领域基础薄弱,尤其是大数据方面已经远远落后于国外先进企业。

牛津大学统计学教授彼得•唐纳利对新华社记者说,目前大数据技术的一个瓶颈就是信息采集,拿牛津大学新成立的医药卫生科研中心来说,首先要有足够量的病人、药物等相关信息,这是数据分析的基础,然而许多病人可能出于隐私考虑不愿提供这些信息,制药企业也有可能因为商业利益不愿共享药物成分等敏感信息。

要从海量数据中得出有用结论,专业的数据分析是关键。牛津大学教授罗里•柯林斯认为,采集到足够信息后,需要由相关领域的专业人士与信息技术专家一起对数据进行有针对性的归纳和分析,而这种跨学科、跨领域合作能否顺利实现,也是大数据实际应用中的一个问题。

此外,技术层面还存在网络带宽、存储容量等问题,现有基础设施无法满足海量信息分析和处理的需求。因此,如何降低存储成本以及提升应用价值成为大数据所面临的关键。

(二)人才问题

500年前达•芬奇可以同时是画家、音乐家、工程师、科学家,100年前的医生可以了解医学领域的所有分支,今天一名初级医生必须同时了解大约一万种疾病和综合征、3000种药物和1100种检验方法。估计一个专业的医生也需要每天学习21小时才能跟得上学科的发展。Gartner咨询公司预测大数据将为全球带来440万个IT新岗位和上千万个非IT岗位,麦肯锡公司预计美国到2018年深度数据分析人才缺口达14万~19万人,还需要数据需求和技术及应用的管理者150万人。

中国能理解与应用大数据的创新人才更是稀缺资源。《2013中国大数据技术与产业发展白皮书》是由中国计算机学会大数据专家委员会历时半年多编写的,其中专门梳理了对大数据人才的培养。在我国,香港中文大学从2008年起设立“数据科学商业统计”科学硕士学位;复旦大学从2007年起开设数据科学讨论班,2010年开始招收数据科学博士研究生,并从2013年起开设《数据科学》课程;北京航空航天大学于2012年设立大数据工程硕士学位。从目前各国的人才培养来看,数据科学家应掌握数学、统计学、数据分析、商业分析和自然语言处理等学科技能,具有较宽的知识面,具有独立获取知识的能力。复旦大学的课程设置强调了数据科学家是研究数据的科学家,而不仅仅是一个数据工程师或者数据分析师。

(三)安全与隐私问题

2013年6月,曾任职于美国中央情报局的斯诺登曝光“棱镜”事件称,美国情报机构可以直接进入多家美国互联网公司的服务器,获取用户数据,对特定目标进行监视。随后,谷歌、苹果、微软、思科等大型网络公司涉足“棱镜门”的消息不断传出。这起事件不但引起个人信息保护者的不满,而且警示我们必须关注大数据时代下的信息安全问题。大数据是一把双刃剑,给人们的生活带来便利的同时,也增添了个人信息泄露的隐患。在这个时代,大数据弥漫在计算机、手机、监视器以及所有的电子设备上,连接了所有人体、生物体、非生物物体和空间。个人隐私、商业秘密和国家机密都可能受到威胁。大数据的兴起为交通运输模式、健康预测和财务风险预测等提出新视角的同时可能会带来严重的隐私问题。企业和政府通过收集、处理和分析社交媒体、医疗和财务记录获得个人信息的能力在不断增强,这可能会给普通消费者带来困扰。在美国的新一轮大数据研究中,隐私保护等伦理问题越来越受到研究者的重视。大数据的利用首先要求政府数据原则上该公开的必须公开。大数据的挖掘与利用需要有法可依。我国需要尽快制定“信息保护法”和“信息公开法”,既要鼓励面向群体而且服务于社会的数据挖掘,又要防止针对个体侵犯隐私的行为,提倡数据共享又要防止数据被滥用。安全与隐私保护的隐患仍大量存在,重要的数据存储和应用不能过分依赖大数据分析技术与平台,需要重视信息泄密的风险。因此,我们需要重新定义大数据时代的信息安全。

发布时间:2014年12月25日 17:26 来源:中国友谊出版公司 编辑:王千雪 打印