手机版
1 1 1

《智慧政府:大数据治国时代的来临》

共产党员网 打印 纠错
微信扫一扫 ×
收听本文 00:00/00:00

   非结构化数据的增长

  有研究认为,组织一直在分析应用的数据只占数据总量20%,这些数据主要是结构化数据,另外80%的数据并没有得到很好的利用,这部分数据主要是非结构化数据。

  结构化数据是指在固定字段集合中存放的数据,如关系型数据和电子表格数据,属于传统的数据技术。非结构化数据是指难以用数据库二维逻辑表表现的数据,包括文本数据以及未标记的视频、音频和图像数据等。半结构化数据则介于两者之间,是用标签和其他标志划分数据元素的数据,可扩展标记语言和超文本标记语言都属于半结构化数据。广义的非结构化数据包括了半结构化和多结构化数据。

  非结构化数据目前普遍被认为占数据总量的85%以上,而且增速比结构化数据快得多,有说法是快10-50倍。尽管上述数据的准确性有待研究确定,但无法否认的是,非结构化数据富含难以估量的价值,然而如何管理非结构化数据,把“数据坟墓”变成“数据金矿”却是一项新的挑战。

  在医疗行业,既存在结构化的电子病历数据,也存在非结构化数据,包括病人描述病情的自然语言以及临床产生的X光片、CT(计算机X射线断层扫描)片、核磁共振片、病理切片等影像文件。这些数据在资料传递交换、临床全面展示和医学科研等方面有重要的价值,然而对于它们的整合利用还处于非常初级的阶段。再比如,到银行办理存贷款业务时,要复印很多证件,户口本、身份证、收入证明等,这些纸质原始资料都会以扫描或拍照的形式转化为电子文档,被永久保存起来。目前这些文档只起到了备查的作用,并没有被很好地开发利用。

  非结构化数据管理能力是大数据的一项核心能力。在IBM发布的白皮书《分析:大数据在现实世界中的应用》中,报告了基于对全球95个国家、26个行业的1 144名业务人员和信息技术专业人士的调研结果。在超过一半的大数据项目中,受访者表示其所在组织采用了先进技术分析自然状态的文本,例如,呼叫中心对话内容的文字记录。这些分析技术包括解释和理解细微的语言特征,包括情绪、俚语和意图等,帮助企业了解客户当前的情绪状态,获得能够直接用于推动客户管理战略的宝贵信息。

  对非结构化数据的开发和利用已经得到国家层面的重视。2012年7月6日,中国正式成立非结构化数据管理标准工作组,负责制定和完善中国非结构化数据管理领域的标准体系,制定相关国家标准,并参与非结构化数据管理的国际标准化工作,从而提升中国在非结构化数据管理领域的整体竞争力。

  物联网

  国际电信联盟发布的互联网报告如此定义物联网:通过二维码识读设备、射频识别装置、红外感应器、GPS和激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网连接,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的一种网络。

  和传统的互联网相比,物联网有其鲜明的特征:

  第一,它是各种感知技术的广泛应用。物联网上部署了海量的多种类型传感器,每个传感器都是一个信息源,不同类别的传感器所捕获的信息内容和信息格式不同。传感器获得的数据具有实时性,按一定的频率周期性地采集环境信息,不断更新数据。

  第二,它是一种建立在互联网上的泛在网。物联网技术的重要基础和核心仍旧是互联网,通过各种有线和无线网络与互联网融合,将物体的信息实时准确地传递出去。在物联网上的传感器定时采集的信息需要通过网络传输,由于其数量极其庞大,形成了海量信息,在传输过程中,为了保障数据的正确性和及时性,必须适应各种异构网络和协议。

  第三,物联网不仅提供了传感器的连接,其本身也具有智能处理的能力,能够对物体实施智能控制。物联网将传感器和智能处理相结合,利用云计算、模式识别等各种智能技术,扩充其应用领域。从传感器获得的海量信息中分析、加工和处理有意义的数据,以适应不同用户的不同需求,发现新的应用领域和应用模式。

  物联网的精神实质是提供不拘泥于任何场合、任何时间的应用场景与用户的自由互动,它依托云服务平台和互通互联的嵌入式处理软件,弱化技术色彩,强化与用户之间的良性互动。更佳的用户体验、更及时的数据采集和分析建议、更自如的工作和生活是通往智能生活的物理支撑。

  例如,“7·21”北京特大暴雨之后,政府采取了很多解决措施,其中重要的一项是在立交桥下安装水位计,水位到一定高度会发出预警,提醒相关部门采取措施,这就是物联网技术的应用。在点位数少的情况下,数据量不够大,只能解决一部分问题。当水位计的点增多后,就会搜集到更多的数据,这样便于发现一些规律并发出预警。正是在物联网的推动下,数据搜集从少数、独立的点变成了大量、彼此连接的网,数据挖掘从对历史数据的挖掘转向对实时数据的挖掘,这就是大数据的意义。

发布时间:2014年06月09日 16:52 来源:中信出版社 编辑:阮玉秀 打印