手机版
1 1 1

《大数据主义》

共产党员网 打印 纠错
微信扫一扫 ×
收听本文 00:00/00:00

【基本信息】

作者:[美]史蒂夫·洛尔

出版社:中信出版社

出版时间:2015年9月

【作者简介】

史蒂夫·洛尔(Steve Lohr)为《纽约时报》撰稿长达20多年,写作内容涉及技术、商业和经济三大领域,同时他还负责撰写《纽约时报》的科技博客Bits,曾采访过史蒂夫·乔布斯(这在《史蒂夫·乔布斯传》里面有所体现)。2013年,他所在团队获得普利策新闻奖。他还做过10年的海外记者,也当过编辑,为《纽约时报杂志》《大西洋月刊》《华盛顿月刊》等媒体撰稿。

【内容简介】

根据一项估计,人类历史上90%的数据都在过去两年中产生。2014年,国际数据公司预测,数据世界已增至4.4亿万亿字节。如果将如此庞大的信息量存储在苹果平板电脑ipad中,叠加起来的Ipad的厚度可达到地球到月球距离的2/3。这预示着我们已经进入了大数据时代。

煤、铁和石油是推动工业革命进程的三大生产性资产,如今信息经济时代的主要原材料是大数据。

在《大数据主义》一书中,作者解释了大数据技术将如何引发一场新的革命,促进新一轮经济效率的提高和创新。互联网规模的海量数据集将被用于几乎各个领域、各个行业和各个企业,以进行探索、预测和提高效益。《大数据主义》重点关注那些处于数据科学领域前沿的年轻企业家,还有诸如IBM等为公司前景而在数据科学领域押下极大赌注的行业巨头。

《大数据主义》还介绍了新的技术革命将如何改变人类的决策方式——人们将更加依赖于数据和分析,而不是直觉和经验;同样,它还将改变领导力和管理的本质。

该书对读者而言是一本行业指南,它预测了行业动向,详细解释了个人和组织应该如何利用、保护并管理大数据,从而在变幻莫测的未来仍能立于不败之地。

大数据主义时代已经来临,我们是否做好了准备去应对它的好与坏?

【名人推荐】

数据技术有潜力戏剧性地提升一系列产业的效率,改变消费行为,同时帮助决策者更好地决策。然而,“大数据决策”必须用谦卑来调和,因为生活中很多重要的东西无法量化,复杂算法也可能做出有害的、错误的、仅仅基于数据的预测。数据崇拜并非福音。

——胡泳,北京大学新闻与传播学院教授

《大数据主义》既像一部大数据代表人物杰夫·哈梅巴赫的成长史,又像一本关于大数据进军不同领域的评论著作。这两条主线的融合,使得本书呈现出夹叙夹议的写作风格,阅读起来比较轻松。在轻松的故事中夹杂着关于大数据的分析和评论,是一本值得推荐的大数据读本。

——巴曙松,教授、中国银行业协会首席经济学家、香港交易及结算所首席中国经济学家

大数据时代带来一个非常重要的挑战,就是安全的挑战。平衡好大数据应用与用户隐私之间的关系,应该成为企业关注的焦点。本书在向我们展示大数据的商业前景和经济潜力的同时,也提醒我们警惕伴随大数据而产生的隐私“黑洞”。

——周鸿祎,奇虎360公司董事长

作者在这本通俗易懂又发人深省的书中,将大数据的希望、特点和风险都展现得淋漓尽致。

——哈尔·范里安,谷歌首席经济学家

大数据可以让我们的身体更加健康,工作更加高效。阅读本书,了解大数据的前世今生,探寻它将何去何从。

——埃里克·施密特,谷歌公司执行董事长

书中到处都是关于像脸谱网、谷歌这类创新型企业,以及雅虎的前数据工程师杰夫·哈默巴赫、IBM的首席科学家迈克尔·哈多克这类数据精英的趣闻轶事、真知灼见以及一些内部信息。若想了解大数据对社会以及对你个人生活的影响,《大数据主义》是一本不可多得的好书。

——奥伦·埃奇奥尼,人工智能专家、美国华盛顿大学计算机科学家

如果你想知道世界将如何发展,那么这本书非读不可。该书突破大数据领域的表象,为人们提供了独特的视角,洞见掌握科技前沿技术的精英们是如何从数据中提取更多有用信息的。

——约翰·哈格尔三世,德勤领先创新中心联合董事长

商业数字化的过程催生了海量数据,也为数据驱动的决策带来了前所未有的机会。如果你想对这一新领域有所了解,本书将为你提供极具价值的信息和极富洞察力的指导。

——埃里克·布莱恩约弗森,《第二次机器革命》作者

【精彩书摘】

推荐序 大数据何以成为“主义”?

文/《经济参考报》总编辑 杜跃进

数据者,有广义与狭义之分。狭义的数据,就是数字或数值,如1、2、3、4、5……;广义的数据,则可概括为人类观察、实验、计算等的记录。作为这些记录的符号,或数字,或文字,或图像,或音视频,从上古时代的结绳记事、楔形文字、甲骨文,到古代乃至现代以竹简、布帛、羊皮、纸张等为载体的图文,直至现在以比特为单位的电子信息,可谓无所不包。

也许,正是由于互联网技术工程师们习惯于把以电子信息方式存在的内容统称为“数据”,于是,“数据”一词便由狭义的“数字”或“数值”演变为主要指向通用的广义“数据”。

随着计算机、互联网、现代通信以及相关软硬件技术的飞速发展,大数据和云计算,如同一枚硬币不可分离的两面,成为我们这个时代的高频词。

大数据之大,不仅大在巨量或海量——由人们熟知的千字节(KB)、兆(MB)、千兆(GB)和太字节(TB),跃升为专业人士才了解的拍字节(PB)、艾字节(EB)、泽字节(ZB),乃至尧字节(YB)。(1KB=1024B,1MB=1024KB,1GB=1024MB,1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB,1YB=1024ZB)。其中,不变的是基本单位B,即比特或字节,而从K到Y,则是成千倍的递增,以致有人据此宣称,目前的数据计算已经进入“PB时代”。

大数据之大,还大在数据结构的有容乃大——它不再需要传统的数据库表格来整齐排列,几乎可以无所不包地记录、存储和计算各种规则的结构化数据和不规则的非结构化数据,于是便有了逐步演变为一个数字化世界的可能。

如此庞大和复杂的数据,远远超出传统计算机的处理能力,于是,建立在互联网基础上的云计算技术应运而生,承担起存储、传输、计算和应用大数据的重任。而正是大数据与云计算的有效互动,打开了世界观、方法论乃至价值观的新视野。

在本书中,作者引用专业研究机构的统计,揭示了大数据的规模与速度:一方面,到2014年,全世界电子化数据已增至4.4ZB,即4.4亿万亿字节,如果将如此之巨的信息量存入只有7.5毫米厚的苹果平板电脑,后者叠加起来的厚度可达地球与月球间距离的2/3;另一方面,有史以来90%的数据量,都是在过去两年的时间里产生的。

由此不难预期,一个电子化的、独立于物质世界的“数字世界”,正在大数据和云计算的互动中迅速构建,它虽然不可能穷尽物质世界全部存在,越来越逼近物质世界本体却是不争的事实。

尤为值得注意的是,许许多多以往被闲置的数据,由于一些精明商家的开发和利用,开始“变废为宝”。一个耳熟能详的案例,就是那个“尿片+啤酒”的商业发现与行动。世界最大零售商沃尔玛通过大数据统计和分析发现,男性顾客在购买婴儿尿片时,常常会顺便买上几瓶啤酒,于是推出将啤酒和尿片捆绑销售的促销方式,从而有效地提高了啤酒销量。

凡此种种表明,如同宇宙大爆炸般飞速扩张的“数字世界”,不仅日益成为外在的客观物质世界的“镜像”,而且正在越来越多地包含对人类自身行为的追踪和记录,成为人类观察和认识自我的“镜子”。

二者的叠加,形成一个有趣的悖论:由大数据构筑而成的数字世界,在日趋脱离客观物质世界的同时,又越来越接近世界的本原。因此,人们在解码这样一个虚拟世界的同时,也在一定程度上改变着对世界的看法。

然而,就在哲学家们对数字世界的属性还没有来得及给出明确界定之际,为利益所驱动的商家们却迫不及待地启动了对这一新矿藏的发掘。

它们是如此急切:还没来得及弄清两个相关现象之间的互动机理或因果关系,便急匆匆地将其中的商机转化为提升经济效益的手段;云计算技术刚刚出现,便迅速地将统计分析对象由随机采样拓展为可获取的全部数据;为寻求“大数据的高效率”,不惜置“小数据的精确度”于不顾……

回过头来看,正是这近乎“饥不择食”的匆忙,竟在无意中成就了认识数字世界的锁钥:不再执着于因果关联,不再满足于抽样分析,不再一味地追求精确度的提高,转而直面模糊与混杂,关注看似不相关的相关现象。这一系列有别于以往的方法,为人类认识世界、解决问题提供了传统工具箱中没有的新工具。

诚如史蒂夫.洛尔在本书中的比喻,这些大数据时代的新工具,犹如“望远镜”或“显微镜”。“望远镜”让人们看得更远,发现新的星系;“显微镜”则将比细胞更加微小的世界展示在人们面前,人们据此看到并计量之前一无所知的事物。

抛开学术和技术层面的研讨,大数据及其应用几乎与生俱来就伴随了喋喋不休的争论。

其中有两个关键词,一是“开放”,一是“保护”。如果说开放就是要打破垄断分割,推动信息与数据互联互通;变革体制机制,实现数据资源共有共享;鼓励技术创新,促进大数据资源开发利用……最大限度地拓展数字世界“公共空间”,让大数据和云计算普惠大众,造福人类;那么保护则意味着要在数字世界为个人留下一方“私密领地”,或者为公权力画上一道不能逾越的“红线”——“风可进,雨可进,国王不能进”。

开放与保护,“公共空间”与“私密领地”,在这里构成既对立又统一的关系。对立在开放与保护“井水不犯河水”,统一在“公共空间”与“私密领地”共存于同一个数字世界,且双方都以对方的存在为自身存在的证据,正所谓没有“公”即没有“私”,没有“私”亦没有“公”。

一言以蔽之,数字世界与现实世界理应奉行同样的价值理念:该开放的一定要最大限度开放,该保护的必须严格加以保护。

本书向读者展示了这样一幅图景:不管你自觉还是不自觉,乐意还是不乐意,大数据正以空前的速度和规模渗透到人类社会生活的方方面面,它在一定程度上已经和正在改变人们观察、认识、思考乃至生存与发展的方式。特别是这后一方面的变化,或许就是“大数据”之所以成为“主义”的原因。

孤陋寡闻,借题发挥,难免贻笑于大方。

忝为推荐。

大数据,医疗革命的大势所趋

导语

2015年9月5日,国务院发布了《关于印发促进大数据发展行动纲要的通知》,通知多次指出要优先推动医疗等领域大数据的发展和应用,要求稳步推动公共数据资源开放,加快民生服务普惠化,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局。

《大数据主义》以一位年轻人和一家有悠久历史的公司为主角,重点介绍他们的相关经历。这位年轻人名叫杰夫·哈梅巴赫,32岁,是大数据主义思想的典型代表,从他职业生涯的变迁不难看出数据技术与方法不断发展的步伐。哈梅巴赫的童年是在印第安纳度过的。从哈佛大学毕业之后,他进入华尔街的一家投资银行,成了一名宽客。之后不久,他加入脸谱网,组建了第一支数据科学家队伍。离开脸谱网之后,他与人合作创办了一家名为Cloudera的公司,并担任首席科学家,编写用于数据科学研究的软件。2012年夏天,哈梅巴赫又走上了一条截然不同的职业道路。他加入纽约西奈山伊坎医学院,领导一个数据小组从事遗传信息等方面的医学研究,探索疾病模型的建立方法与治疗突破口。哈梅巴赫认为,在当今社会,将他掌握的技能投入应用的最佳途径就是通过医学研究。

杰夫·哈梅巴赫之路

西奈山伊坎医学院有几个研究小组,哈梅巴赫负责的那个小组隶属于一个资金雄厚的研究所。该研究所主要从事基因组学与多尺度生物学研究,这是大数据在医疗领域的前沿阵地。这家研究所成立才几年时间,就已经满怀豪情壮志地开展了若干项目,研究癌症、糖尿病、阿尔茨海默病及克罗恩病的治疗方法。哈梅巴赫对心理健康特别感兴趣,他发自内心地希望推动这个领域的研究。

西奈山伊坎医学院肩负的使命与充足的资金支持令哈梅巴赫心动不已,除此以外,西奈山伊坎医学院与医院的领导层同意将数据研究人员纳入医院系统,这也是哈梅巴赫难以抗拒的一个条件。他们不会被安排进医学院远离医疗护理的部门专门从事研究,他们的研究成果将直接应用到治疗之中,在履行适当的保密措施之后,他们还可以接触病人数据。这意味着他们将得到海量的病人数据,因为西奈山伊坎医学院近些年来不断扩张,已经拥有7个校园、6600名医生,每年接待数百万名病人,而且这些病人涵盖了所有年龄群、收入结构和民族。西奈山伊坎医学院就像一个大熔炉,可以提供各种各样的病人数据。斯卡德说:“如果你去帕洛阿尔托看看,与纽约相比,那里基本上是一个梦幻仙境。”

从2013年开始,哈梅巴赫的大部分时间都是在纽约度过的。当年秋天,在完成了“得墨忒耳”计算机集群的前两个阶段组建工作之后,他开始招募人手,希望组建一个约10人的团队。在2013年12月的一个星期六,天空下着雪,哈梅巴赫、他首批招募的4名成员还有另外两个人坐在一起开会,会议持续了一天的时间。会议是在一家规模不大的风险投资公司位于市区的办公室里举行的,这家公司的负责人是哈梅巴赫以前在哈佛大学上学时的同桌。那是一间玻璃外墙的会议室,7名年轻人就围坐在圆形会议桌周围。哈梅巴赫称这次会议是一次“水平调整”的会议,“开完会之后,我们就处于同一水平了”。

新招募的4名成员中,有3人还没有开始踏入西奈山伊坎医学院的生活。因此,哈梅巴赫一边把平面显示屏上的幻灯片投射到墙壁上,一边为他们做全面介绍。他从医院的历史(始于19世纪50年代的犹太人医院,当时有45个床位)开始说起,一直说到西奈山伊坎医学院现在拥有的各种计算机系统和数据源,包括电子健康档案、床边监护、基因组学、诊断影像、实验室检测结果、出院数据和账单数据,以及含有近3万名志愿者血浆与脱氧核糖核酸样本的生物样本库。

跟以往一样,哈梅巴赫告诉与会者,他领导的团队开会次数很少:每周一次的进展讨论会议,每月一次的发展方向与前景构想会议。在为他们介绍“得墨忒耳”计算机集群的软硬件时,他的演示非常详细,充斥着大量缩略词。他还介绍了医学数据的复杂性,例如,不同医院、软件公司和医学标准化组织使用的缩写代码(由字母与数字组成)各不相同。同一种疾病可能有多达20种代码,要理解这些代码的含义,哈梅巴赫的团队必须编写出软件,自动整理这些互不相同的医学代码系统。哈梅巴赫说:“你以为只有基因测序才是最复杂的吗?”在一整天的时间里,哈梅巴赫一边检查项目进展情况、寻找各种机会,一边说:“你们看,这个任务要实现自动化并不是轻而易举的”“现在知道这些问题真的非常棘手了吧”“欢迎进入生物学王国”之类的话。有一次,一个新成员还加上了一句:“这个肯定有研究价值。”

2013年12月的“水平调整”会议表明,不仅西奈山伊坎医学院项目,整个数据科学的前景都面临着一个潜在的问题。粗略地看,数据科学的发展方向是不容置疑的,愿景也是非常清楚的:数据以及可以将原始数据转变为知识的智能软件工具,将为探索发现与决策活动提供越来越强劲的动力。但是,商业与科学领域的发展速度可以有多快呢?发展速度又从何而来呢?

如何让愿景得以实现,这是西奈山伊坎医学院项目以及众多野心勃勃的大数据项目必须解决的难题。西奈山伊坎医学院已经开展了一些令人鼓舞的工作,其中一个项目就是癌症个性化疗法。该疗法首先对病人健康细胞进行基因测序,然后再对恶性肿瘤进行测序。接着,在找到并分析有问题的基因网络之后,针对病人具体情况设计一个量身定制的药物疗法。医院的研究人员还开展了针对阿尔茨海默病、克罗恩病、糖尿病的基因组学研究计划,这些项目得到了美国国立卫生研究院以及私营企业的资金支持。哈梅巴赫告诉他的团队,他们需要做大量的工作,不断取得进展。他说:“这些临床难题中蕴藏着如何管理基因组数据的问题,这些问题彼此间关系紧密,牵一发而动全身。”

后记

智能化程度日益提高的大数据算法将决定我们能看到哪些信息,决定商家为我们提供哪些产品,决定生活会为我们提供哪些机会,因此,我们可以把这些算法看成社会中新近产生的“权力掮客”。在大数据时代,我们或者有心,或者无意,将越来越多的决策交给自动算法来完成。问题在于,在满足哪些条件之后,我们才会让大数据算法接管我们的决策权?就如人工智能专家丹尼·希利斯说的那样,我们是否需要进行审核跟踪?是否需要智能系统解释它利用软件生成的决定是如何做出的(也就是希利斯说的“讲故事”)?

大数据的发展前景似乎与斯派克·琼斯执导、2013年12月上映的电影《她》非常相似。这绝不是我信口开河的说法,有几位计算机科学家在与我交谈时都提到了这部电影。影片中,代表大数据发展前景的是主角西奥多·托姆布雷(乔昆·菲尼克斯饰)通过智能手机使用,并输入各类信息的一款智能软件。这款名叫萨曼莎的软件助手通过语音(斯嘉丽·约翰逊配音)交流,成为他的得力助手,但是后来,它承担的工作越来越多,开始帮他回答问题,处理电子邮件和文本信息。而且总体看来,它对西奥多的一切似乎都了如指掌,包括他的个人历史、喜好、品味、读过哪些书、看过哪些电影、买过哪些商品,等等。

用人工智能行业的术语来说,萨曼莎是一个对话系统,也就是说,它可以与人对话,而且通过这些对话获取信息、建立自己的知识库,其实这就是加强版的机器学习软件。加利福尼亚通信及信息技术研究院首位院长拉里·斯玛尔说:“这种机器学习软件就是我们努力的目标。10年之后,超个性化辅助将变成司空见惯的事。”电影《她》为这个目标设定的实现时间是2025年。

如果数据驱动的人工智能果真能如此,我们会觉得很酷还是害怕呢?对于我们大多数人而言,可能是二者兼有。即使真有可能成功,开发出拟人程度那么高的技术也需要一定的时间。真的可以设计出能提供高度个性化建议的数字问答机器吗?这毫无疑问是可以的。人工智能可以做到以假乱真、让人无法分辨的拟人程度吗?我对此表示怀疑。几年前,《纽约时报》以“超出你想象般聪明”为题,刊登了讨论人工智能进展情况的系列文章。这项技术的确令人赞叹,而且还在不断发展。但是,在完成这些报道时,我不由自主地想到一个问题:人类大脑,也就是我们被称作人类一般性智力的那个神奇的东西,到底是什么呢?在与人工智能专家们交流时,我们也经常会讨论这个问题。一般智力指毫不费力地利用生活体验、建立直觉式关联性和完成快速决策的能力,也就是丹尼尔·卡尼曼所说的“快思维”。人类的大脑相当于一个处理器,在狭小的空间里储备有令人难以置信的计算能力,而功率仅为20瓦。相比之下,在《危险游戏》电视竞技节目中击败人类冠军的沃森计算机的功率要大得多,高达85000瓦。

数据的种类越来越多,再加上人类编程人员编写出智能水平越来越高的算法,这种良性循环借助大数据的力量,将推动人工智能领域焕发出新的生命力。但是,机器学习能完成的任务越多,人类对自身的了解就会越深入。斯玛尔说:“人的本质到底是什么?在接下来的20年时间里,随着大数据技术的不断发展,我们将会越来越深入地思考这个问题。”

发布时间:2015年09月15日 14:43 来源:中信出版社 编辑:张青津 打印