手机版
1 1 1

《大数据主义》

共产党员网 打印 纠错
微信扫一扫 ×
收听本文 00:00/00:00

大数据,医疗革命的大势所趋

导语

2015年9月5日,国务院发布了《关于印发促进大数据发展行动纲要的通知》,通知多次指出要优先推动医疗等领域大数据的发展和应用,要求稳步推动公共数据资源开放,加快民生服务普惠化,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局。

《大数据主义》以一位年轻人和一家有悠久历史的公司为主角,重点介绍他们的相关经历。这位年轻人名叫杰夫·哈梅巴赫,32岁,是大数据主义思想的典型代表,从他职业生涯的变迁不难看出数据技术与方法不断发展的步伐。哈梅巴赫的童年是在印第安纳度过的。从哈佛大学毕业之后,他进入华尔街的一家投资银行,成了一名宽客。之后不久,他加入脸谱网,组建了第一支数据科学家队伍。离开脸谱网之后,他与人合作创办了一家名为Cloudera的公司,并担任首席科学家,编写用于数据科学研究的软件。2012年夏天,哈梅巴赫又走上了一条截然不同的职业道路。他加入纽约西奈山伊坎医学院,领导一个数据小组从事遗传信息等方面的医学研究,探索疾病模型的建立方法与治疗突破口。哈梅巴赫认为,在当今社会,将他掌握的技能投入应用的最佳途径就是通过医学研究。

杰夫·哈梅巴赫之路

西奈山伊坎医学院有几个研究小组,哈梅巴赫负责的那个小组隶属于一个资金雄厚的研究所。该研究所主要从事基因组学与多尺度生物学研究,这是大数据在医疗领域的前沿阵地。这家研究所成立才几年时间,就已经满怀豪情壮志地开展了若干项目,研究癌症、糖尿病、阿尔茨海默病及克罗恩病的治疗方法。哈梅巴赫对心理健康特别感兴趣,他发自内心地希望推动这个领域的研究。

西奈山伊坎医学院肩负的使命与充足的资金支持令哈梅巴赫心动不已,除此以外,西奈山伊坎医学院与医院的领导层同意将数据研究人员纳入医院系统,这也是哈梅巴赫难以抗拒的一个条件。他们不会被安排进医学院远离医疗护理的部门专门从事研究,他们的研究成果将直接应用到治疗之中,在履行适当的保密措施之后,他们还可以接触病人数据。这意味着他们将得到海量的病人数据,因为西奈山伊坎医学院近些年来不断扩张,已经拥有7个校园、6600名医生,每年接待数百万名病人,而且这些病人涵盖了所有年龄群、收入结构和民族。西奈山伊坎医学院就像一个大熔炉,可以提供各种各样的病人数据。斯卡德说:“如果你去帕洛阿尔托看看,与纽约相比,那里基本上是一个梦幻仙境。”

从2013年开始,哈梅巴赫的大部分时间都是在纽约度过的。当年秋天,在完成了“得墨忒耳”计算机集群的前两个阶段组建工作之后,他开始招募人手,希望组建一个约10人的团队。在2013年12月的一个星期六,天空下着雪,哈梅巴赫、他首批招募的4名成员还有另外两个人坐在一起开会,会议持续了一天的时间。会议是在一家规模不大的风险投资公司位于市区的办公室里举行的,这家公司的负责人是哈梅巴赫以前在哈佛大学上学时的同桌。那是一间玻璃外墙的会议室,7名年轻人就围坐在圆形会议桌周围。哈梅巴赫称这次会议是一次“水平调整”的会议,“开完会之后,我们就处于同一水平了”。

新招募的4名成员中,有3人还没有开始踏入西奈山伊坎医学院的生活。因此,哈梅巴赫一边把平面显示屏上的幻灯片投射到墙壁上,一边为他们做全面介绍。他从医院的历史(始于19世纪50年代的犹太人医院,当时有45个床位)开始说起,一直说到西奈山伊坎医学院现在拥有的各种计算机系统和数据源,包括电子健康档案、床边监护、基因组学、诊断影像、实验室检测结果、出院数据和账单数据,以及含有近3万名志愿者血浆与脱氧核糖核酸样本的生物样本库。

跟以往一样,哈梅巴赫告诉与会者,他领导的团队开会次数很少:每周一次的进展讨论会议,每月一次的发展方向与前景构想会议。在为他们介绍“得墨忒耳”计算机集群的软硬件时,他的演示非常详细,充斥着大量缩略词。他还介绍了医学数据的复杂性,例如,不同医院、软件公司和医学标准化组织使用的缩写代码(由字母与数字组成)各不相同。同一种疾病可能有多达20种代码,要理解这些代码的含义,哈梅巴赫的团队必须编写出软件,自动整理这些互不相同的医学代码系统。哈梅巴赫说:“你以为只有基因测序才是最复杂的吗?”在一整天的时间里,哈梅巴赫一边检查项目进展情况、寻找各种机会,一边说:“你们看,这个任务要实现自动化并不是轻而易举的”“现在知道这些问题真的非常棘手了吧”“欢迎进入生物学王国”之类的话。有一次,一个新成员还加上了一句:“这个肯定有研究价值。”

2013年12月的“水平调整”会议表明,不仅西奈山伊坎医学院项目,整个数据科学的前景都面临着一个潜在的问题。粗略地看,数据科学的发展方向是不容置疑的,愿景也是非常清楚的:数据以及可以将原始数据转变为知识的智能软件工具,将为探索发现与决策活动提供越来越强劲的动力。但是,商业与科学领域的发展速度可以有多快呢?发展速度又从何而来呢?

如何让愿景得以实现,这是西奈山伊坎医学院项目以及众多野心勃勃的大数据项目必须解决的难题。西奈山伊坎医学院已经开展了一些令人鼓舞的工作,其中一个项目就是癌症个性化疗法。该疗法首先对病人健康细胞进行基因测序,然后再对恶性肿瘤进行测序。接着,在找到并分析有问题的基因网络之后,针对病人具体情况设计一个量身定制的药物疗法。医院的研究人员还开展了针对阿尔茨海默病、克罗恩病、糖尿病的基因组学研究计划,这些项目得到了美国国立卫生研究院以及私营企业的资金支持。哈梅巴赫告诉他的团队,他们需要做大量的工作,不断取得进展。他说:“这些临床难题中蕴藏着如何管理基因组数据的问题,这些问题彼此间关系紧密,牵一发而动全身。”

发布时间:2015年09月15日 14:43 来源:中信出版社 编辑:张青津 打印