当今社会,数据量正在以爆炸方式迅猛增长,数据表示形式千变万化,标志着我们已经进入了大数据时代。云计算、三网融合、物联网、移动互联网的出现,更加催生了大数据时代的产生。维基百科对大数据的定义是: 数据增长如此之快,以至于难以使用现有的数据库管理工具进行快速的数据获取、存储、搜索、共享、分析和可视化等操作,这些数据量是如此之大,已经不是以传统的 GB 和 TB 为单位来衡量,而是以 PB( 1PB =1024TB) 、EB ( 1EB = 1024PB) ,甚至是以 ZB ( 1ZB =1024EB) 、YB( 1YB = 1024ZB) 为计量单位,所以称之为大数据。有调查指出,如今大规模的企业系统包括由上千台服务器所构成的完整数据中心。使用大数据日益成为企业超越竞争对手的有力武器。企业通过快速获取、分析由供应商和客户产生的大量有关产品和服务的数据,可以更有针对性地提升消费者所关心的产品质量和服务质量,制定出更加符合市场和客户需求的产品和服务策略,从而获取更多的市场份额,增强企业的竞争实力。然而,对于大数据时代下的企业来说,其所需存储、处理的数据量惊人,数据来源和数据结构繁多复杂,为大数据的分析和应用带来很多挑战。企业要想充分发挥大数据所赋予的机遇和优势,前提是必须拥有可靠、准确、及时的高质量的数据,只有从高质量的大规模数据中提取隐含的、有用的信息,企业才能做出更加精准、更加符合市场和客户需求的决策,否则大数据的优势将化为泡影。为此,企业需要更加注重大数据时代下的数据质量及其重要性。
一、大数据时代产生的必然
大数据是云计算技术的延伸,更是社会进步和发展的必然结果,大数据时代的到来引领了未来 IT 技术发展的战略走向。在信息和网络技术飞速发展的今天,越来越多的企业业务及社会活动实现了数字化,特别是随着数据生成的自动化及数据生成速度的加快,数据量也随之快速增长。同时,随着存储设备、内存、处理器等电脑元件成本的稳定下降,使得之前较昂贵的大规模数据存储和处理变得十分经济,也使得大数据的存在成为可能。有调查显示,企业信息系统中拥有数万亿字节的客户信息、供应商信息以及业务运营信息,数据已经成为业务活动的副产品。全球最大的零售商沃尔玛公司,每天通过分布在世界各地的6000 多家商店向全球客户销售超过 2.67 亿件的商品,分析交易数据的数据仓库系统规模已经达到 4PB,并且仍在不断扩大。传感器数据也是大数据的主要来源之一。在物联网时代,成万上亿计的网络传感器嵌入在数量不断增长的智能电表、移动电话、汽车等物理设备中,不断感知、生成并传输超大规模的有关地理位置、振动、温度、湿度等新型数据,其中 2010 年的移动电话使用量已经超过 40 亿,传感器的应用数量每年正在以 30%的速度增长。此外,全球数据存储量也呈现飞速增长趋势。2008 年全球数据量仅为0.49ZB; 在金融危机笼罩下的 2009 年,数据量也较2008 年增长了 63% ,达到 0.8ZB; 2010 年增至 1.2ZB;2011 年高达 1.82ZB; 2012 年则达到 2.7ZB,相比于2011 年的数据量增长了 48% 。若以如此快的速度增长,2015 年的全球数据量将会升至 8ZB,到 2020 年则高达 35.2ZB,是 2015 年数据量的 44 倍之多。
此外,移动互联网、三网融合、Web 2.0 技术和电子商务技术的飞速发展,也促进了大数据时代的产生和发展。人们可以通过智能机、便携机、个人电脑等终端设备,随时随地浏览网页,上传或下载、发布或共享图片、视频、音频文本等多种媒体格式的文件,其中每秒钟高清视频所含的数据容量是单页文本格式数据容量的 2000 倍,大量的多媒体内容在指数增长的数据量中发挥着重要的作用。在以 Web 2.0 为技术支撑的社交网站中,大量网络用户的点击量、浏览痕迹、日志、照片、视频、音频等多媒体信息都会被记录下来,随着时间的推移,如此庞大、复杂的数据为跟踪用户、分析用户喜好等提供了基础,从而使社交网站可以有针对性地开发、投放满足用户需求的各种应用、广告及商品。同样,网上书店则通过存储顾客的搜索路径、浏览记录、购买记录等大量数据,分析顾客的购买倾向,设计算法来预测顾客感兴趣的书籍类型。
通过上述典型的大数据的例子可以发现,数字化已经成为社会发展的必然趋势。与生产过程必须依赖硬件设备和人力资本一样,企业的业务活动、创新、成长也越来越离不开大量数据的支持。也就是说,企业的任何一项业务活动都与大量的数据紧密相联,而我们每一个人都是数据的产生者,数据量与日俱增,数据结构繁杂多变,数据产生速度非常之快,我们已经进入了大数据的时代。
二、大数据的特点
数据无所不在,充斥于社会中的每一个部门、每一个经济体、每一个组织、每一个 IT 技术的使用者,数据的海量生产、共享和应用已经成为必然。之所以被称为大数据,是因为它具有传统数据所不具备的独特特点( 见表 1) 。
首先,数据量庞大。数据量大是大数据的首要特点之一,大数据时代的数据量是以 PB、EB、ZB 为存储单位的。据麦肯锡全球研究院( MGI) 估计,2010 年,企业的磁盘中存储了超过 7EB 字节的新数据; 用户在个人 PC 机和笔记本等设备上的新数据存储量也超过了 6EB 字节。另有一份报告显示,沃尔玛公司每小时能够从顾客交易信息中收集超过 2. 5PB 字节的数据。截至 2012 年,社会上每天会产生 2. 5EB 量的数据,这个数据量是过去每 40 个月所产生数据量的两倍。社会与企业被如此庞大的数据量所包围,这也正是大数据时代下企业的重大变化之一,即用数据来表示企业的各种业务活动。
第二,数据增长、变化速度快。这既是大数据时代的特点,同时也是企业处理大数据所面临的难题与挑战。大数据环境下,数据产生、存储和变化的速率十分惊人。目前因特网上每秒钟产生的数据量比 20 年前整个因特网所存储的数据量还要巨大,可见大数据产生速度之快。然而,数据量飞速增长的同时,对数据处理速度也提出了更高的要求。在这个用数据说话、竞争异常激烈的时代,数据产生速率甚至比数据产生数量要重要得多,事先拥有了数据,就意味着事先拥有了市场话语权,能够让企业率先做出符合企业和消费者需求的战略决策,使得企业更加敏捷,从而先于竞争对手快速占领市场,增强企业的竞争实力。如果企业不能快速、有效地处理如此庞大的数据量,就会被快速增长的数据量所淹没,丧失了大数据的价值。
第三,数据的多样性。多样性也是大数据的重要特点之一。大数据以多种多样的形式涌现,如来自于传感器的各种类型数据、移动电话的 GPS 定位数据、社交网络中的语音、图像、视频、日志文件等等,并且随着大数据时代的发展,新的数据来源与数据形式也会不断出现。在如此多样化的数据结构中,可获得的数据常常是非结构化的,因此,传统的结构化数据库已经很难存储并处理多样性的大数据。但是在如此大量、繁杂的信息中却存在着值得人们去挖掘的潜在有用信息,这也正是大数据多样性价值的重要体现。
三、大数据环境下数据质量的重要性及挑战
大数据并不仅仅指其数据量之大,更代表着其潜在的数据价值之大。有研究证明,有效地管理、使用大数据能够给企业提供更多增强企业生产能力和竞争能力的机会,能够给企业带来巨大的潜在商业价值。例如在制造领域,嵌入在产品中的传感器所传输的大数据为企业开发新型的售后服务项目、开发下一代新产品提供了坚实的数据基础。又如在医疗领域,通过分析患者的临床和行为数据,可以更深入地理解患者的病症,进一步为不同的患者人群提供最适合他们的护理规划等等。
大数据是企业决策的基础,但是单纯的数据量的积累不会对企业产生任何益处,只有建立适当的分析模型,并运用相应的技术手段,对大量的数据进行有效地深加工,发现隐含在大量数据中的信息并加以利用,进而指导企业做出相关决策,才能将大数据的真正效用发挥到极致。如果说云计算为海量分布的数据提供了存储、访问的平台,那么如何在这个平台上实时挖掘数据价值,使其为个人、组织和国家服务,将是云计算必然的发展方向,更是大数据技术的关键核心议题。然而要想充分发挥大数据给企业带来的优势,实现大数据的价值增值,挑战却是巨大的。高质量的数据是大数据发挥效能的前提和基础,强大、高端的数据分析技术是大数据发挥效能的重要手段。对大数据进行有效分析的前提是必须要保证数据的质量,专业的数据分析工具只有在高质量的大数据环境中才能提取出隐含的、准确的、有用的信息,企业基于这些高质量分析结果所做出的各项决策才不至于偏离正常轨道; 否则,即使数据分析工具再先进,在充满“垃圾”的大数据环境中也只能提取出毫无意义的“垃圾”信息。因此数据质量在大数据环境下显得尤其重要。
然而,在大数据时代下,企业要想保证大数据的高质量却并非易事,很小的、容易被忽视的数据质量问题在大数据环境下会被不断放大,甚至引发不可恢复的数据质量灾难。因此,如何保证大数据的数据质量,以及如何有效地挖掘隐藏在大数据中的信息,成为企业日益关心的问题。以制造企业为例,企业可以从大量的客户、产品和销售信息中获得更多有价值的信息,进而制定满足消费者需求的销售策略。然而这些信息的获取和提炼都必须以高质量的数据为前提,如果数据质量低下,必然会影响提取出的信息的质量,甚至是错误的、无效的信息。因此在大数据环境下,对数据质量的要求更加苛刻。
总之,由于大数据具有复杂、多样、多变等特点,在大数据时代下,数据质量很难保证。下文重点从流程、技术和管理三方面来分析大数据环境下保证大数据质量的挑战及重要性。
(一) 流程视角
从流程的角度,也即从数据生命周期角度来看,可以将数据生产过程分为数据收集、数据存储和数据使用三个阶段,三个阶段对保证大数据质量分别提出了不同的挑战。
首先在数据收集方面,大数据的多样性决定了数据来源的复杂性。大数据的数据来源众多,数据结构随着数据来源的不同而各异,企业要想保证从多个数据源获取的结构复杂的大数据的质量并有效地对数据进行整合,是一项异常艰巨的任务。来自于大量不同数据源的数据之间存在着冲突、不一致或相互矛盾的现象,在数据量较小的情形下,通过编写简单的匹配程序,甚至是人工查找,即可实现多数据源中不一致数据的检测和定位,然而这种方法在大数据情形下却显得力不从心。在数据获取阶段保证数据定义的一致性、元数据定义的统一性及数据质量是大数据为中国甚至全世界企业提出的挑战。另外,由于大数据的变化速度较快,有些数据的“有效期”非常之短,如果企业没有实时地收集所需的数据,有可能收集到的就是“过期的”、无效的数据,在一定程度上会影响大数据的质量。数据收集阶段是整个数据生命周期的开始,这个阶段的数据质量对后续阶段的数据质量起着直接的决定性的影响。因此,企业应该重视源头上的大数据质量问题,为大数据的分析和应用提供高质量的数据基础。
其次在数据存储阶段,由于大数据的多样性,单一的数据结构( 如关系型数据库中的二维表结构) 已经远远不能满足大数据存储的需要,企业应该使用专门的数据库技术和专用的数据存储设备进行大数据的存储,保证数据存储的有效性。据调查,目前国内大部分企业的业务运营数据仍以结构化数据为主,相应地主要采用传统的数据存储架构,如采用关系型数据库进行数据的存储,对于非结构化数据,则是先将其转化为结构化数据后再进行存储、处理及分析。这种数据存储处理方式不仅无法应对大数据数量庞大、数据结构复杂、变化速度快等特点,而且一旦转化方式不当,将会直接影响到数据的完整性、有效性与准确性等。而北京市科学技术委员会委员陈力工曾指出这种结构化的数据只占到互联网整体流动数据的 10%,剩余 90%都为视频、图片、音频等非结构化的数据,这就对传统数据存储架构的可靠性及有效性构成了挑战。数据存储是实现高水平数据质量的基本保障,如果数据不能被一致、完整、有效的存储,数据质量将无从谈起。因此,企业要想充分挖掘大数据的核心价值,首先必须完成传统的结构化数据存储处理方式向同时兼具结构化与非结构化数据存储处理方式的转变,不断完善大数据环境下企业数据库的建设,为保证大数据质量提供基础保障。
同时,企业数据库管理员( Database Administrator,DBA) 应该根据大数据结构的要求和特点合理地设计数据存储和使用规则,以方便对数据的快速读取。如果数据存储不合理,不仅会浪费系统的存储空间,而且还会给后期的数据使用带来极大的不便,甚至会产生错误、无效的数据,难以保证数据质量。此外,DBA 在设计相应规则时,还要考虑诸多罕见的情况,因为在传统数据量较少的情况下没有考虑到的情形在大数据情况下却有可能会发生。如果没有考虑特殊或罕见情况,或考虑得不够全面,将会给大数据的数据质量带来严重的影响,甚至是危机。
最后,在数据使用阶段,数据价值的发挥在于对数据的有效分析和应用,大数据涉及的使用人员众多,很多时候是同步地、不断地对数据进行提取、分析、更新和使用,任何一个环节出现问题,都将严重影响企业系统中的大数据质量,影响最终决策的准确性。举例来说,由于大数据规模庞大、变化速度快,对数据的处理速度要求较高,如果数据处理不及时,有些变化速度快的数据就失去了其最有价值的阶段,有些“过期”的数据甚至与实际数据不符,企业根据这些“过期”的无效数据所做出的决策必然也是无效的,甚至是错误的。从这个角度来讲,数据及时性也是大数据质量的一个重要方面,如果企业不能快速地进行数据分析,不能从数据中及时地提取出有用的信息,就将会丧失预先占领市场的先机。
( 二) 技术视角
本文的技术视角主要是指从数据库技术、数据质量检测识别技术、数据分析技术的角度来研究保证大数据质量的挑战及其重要性。大数据及其相关分析技术的应用能够为企业提供更加准确的预测信息、更好的决策基础以及更精准的干预政策,然而如果大数据的数据质量不高,所有这些优势都将化为泡影。
在数据规模较小的情况下,关系型数据库就能满足企业数据存储的需要,一般企业信息系统数据库中的记录通常会达到几千条或上万条,规模稍大的企业,其数据记录能达到几十万条,在这种情况下,检测数据库中错误、缺失、无效、延迟的数据非常容易,几分钟甚至几秒钟就能完成对所有记录的扫描和检测。然而在大数据时代,企业的数据量不仅巨大,而且数据结构种类繁多,不仅仅有简单的、结构化的数据,更多的则是复杂的、非结构化的数据,而且数据之间的关系较为复杂,若要识别、检测大数据中错误、缺失、无效、延迟的数据,往往需要遍历数百万甚至数亿条记录或语句,传统的技术和方法常常需要几小时甚至几天的时间才能完成对所有数据的扫描与检测,因此,从这个角度来讲,大数据环境为数据质量的监测和管理带来了巨大的挑战。这种情况下,传统的数据库技术、数据挖掘工具和数据清洗技术在处理速度和分析能力上已经无法应对大数据时代所带来的挑战,处理小规模数据质量问题的检测工具已经不能胜任大数据环境下数据质量问题的检测和识别任务,这就要求企业应根据实际业务的需要,在配备高端的数据存储设备的同时,开发、设计或引进先进的、智能化的、专业的大数据分析技术和方法,以实现大数据中数据质量问题的检测与识别,以及对大数据的整合、分析、可视化等操作,充分地提取、挖掘大数据潜在的应用价值。
大数据是 IT 领域又一次新的技术变革,国际数据公司( International Data Corporation,IDC) 指出,在大数据潮流中,新的数据类型与新的数据分析技术的缺失将是阻碍企业成为其行业领导者的重要方面。然而,由于大数据热潮在国内刚刚掀起,诸多企业仍然采用的是传统的关系型数据库数据处理方式及适用于小规模数据的数据分析和数据挖掘技术,对先进的大数据存储处理技术和分析工具仍处于学习和了解阶段。另外,国内对于大数据相关技术的开发多关注于数据分布式存储及并行计算方面,能够满足大数据特点及要求的数据质量检测和清洗的智能化工具十分稀缺。这些都为保障大数据质量、充分发挥数据质量在推动大数据应用有效性方面的重要作用提出了挑战。
( 三) 管理视角
管理视角主要探讨企业高层管理者、专业管理和技术分析人员对保证大数据质量的重要性。
首先,大数据的管理需要企业高层管理者的重视和支持。只有得到了企业高层管理者的高度重视,一系列跟大数据有关的应用及发展规划才能有望得到推动,保证大数据质量的各项规章制度才能得到顺利的贯彻和落实。如果企业高层管理者缺乏大数据意识以及对大数据价值的正确理解,通常会给大数据管理带来阻碍。缺少高层管理者的支持,企业对大数据管理、分析和应用的重视程度就会有所降低,大数据的质量就无法得到全面、有效的保证,从而将会大大弱化大数据价值的发挥,不利于企业竞争能力的提升。因此,企业应该在高层管理的领导和带领下,加强大数据质量意识,建立完善的数据质量保证制度。然而,大数据在中国仍然处于“初级发展阶段”,远未达到系统化使用大数据技术对数据进行深度分析和挖掘的程度,还没有充分体会到大数据分析及应用给企业带来的巨大商业价值,因此企业高管对大数据的认识还没有真正提升到企业发展的战略高度,大数据的质量也因此并没有得到充分地重视,这在很大程度上阻碍了大数据在国内企业的发展。
其次,专业数据管理人员的配备是保证大数据质量不可或缺的部分。由于大数据本身的复杂性增加了大数据管理的难度,既懂得数据分析技术,同时又谙熟企业各项业务的新型复合型管理人员是当下企业应用大数据方案最急需的人才,而首席数据官( Chief Data Officer,CDO) 就是这类人才的典型代表。CDO 是有效管理企业大数据、保证大数据质量的中坚力量。企业要想充分运用大数据方案,任命 CDO 来专门负责大数据所有权管理、定义元数据标准、制定并实施大数据管理决策等一系列活动是十分必要的。一份针对全球500 家企业的调查结果显示,指定高层管理人员专门负责数据管理的 50 家企业的绩效要远远高于其他企业的绩效。因此,大数据环境下,需要 CDO 这样的新型管理人才,根据企业的业务需求选择合适的数据库以及数据抽取、转换和分析等工具,进行相关的数据挖掘、数据处理和分析,并根据分析结果对企业未来的业务规划和发展战略提供相应的建议和意见。然而,对于国内传统的中小型企业来说,其拥有的数据规模较小,数据复杂程度较低,利用数据挖掘技术探究潜在市场机遇的情况并不多,因此它们对大数据的认识明显不足,不会意识到建立 CDO 职位的必要性和重要性。即使是在拥有大数据规模的大中型企业,它们的数据管理和分析部门通常处于分散、被动、辅助的地位,没有得到企业的充分高度重视,也同样没有把建立CDO 提升到企业战略的高度,没有意识到大数据环境下 CDO 对企业的重要作用,很多时候只是在企业内部设立了首席信息官( Chief Information Officer,CIO) 一职来肩负最基本的数据管理职责。但是由于 CIO 是技术行家,缺乏全面、专业地对企业业务数据进行分析、整理和挖掘的能力,最终将会导致企业渐渐失去大数据所赋予的竞争优势。另外,CDO 的门槛很高,既要对企业各项业务的运作流程十分熟悉,又要懂得IT、数据分析、数据挖掘等技术的应用,同时还要具备极强的数据分析能力,集这些技能于一身的人才在国内非常稀少,这种大数据应用需求高涨与 CDO 人才缺失之间的矛盾将成为国内大数据应用面临的最大挑战之一。
CDO 的缺失是国内数据管理方式落后的直接体现,而落后的数据管理方式是影响大数据应用、阻碍大数据质量提升的重要因素之一。传统的数据管理方式已经远远不能满足大数据环境下数据质量的要求。以往大部分企业在运营过程中均由业务部门负责掌管数据,IT 部门负责信息技术的应用,这种分离式的运营管理方式容易造成业务人员不了解分析不同数据所需的不同 IT 工具,而 IT 人员在运用 IT 技术分析数据时不了解数据本身的内涵,甚至会做出错误的数据解释,影响了企业决策的准确性和有效性。为此,企业应该对组织架构体系及其资源配置进行重组,让数据管理与分析部门处于企业的上游位置,而设立 CDO 便是企业重组的成功标志之一。大数据环境下,同时还应配备专业、高端的数据库设计和开发人员、程序员、数学和统计学家,在全面保证大数据质量的同时,充分挖掘大数据潜在的商业价值。
此外,在大数据生产过程的任何一个环节,企业都应该配备相应的专业数据管理人员,通过熟悉掌握数据的产生流程进行数据质量的监测和控制,例如在数据获取阶段,应指定专门人员负责记录定义并记录元数据,以便于数据的解释,保证企业全体人员对数据的一致、正确理解,保证大数据源头的质量。
四、结语
像互联网、云计算以及物联网等技术一样,大数据时代的到来势必会再次让信息技术领域焕然一新。大数据时代下,每个个体都是数据的产生者,企业的任何一项业务活动都可以用数据来表示,如何保证大数据的质量,如何建模、提取并利用隐藏在大数据中的信息以提升企业信息系统绩效、提升企业决策能力,成为摆在业界和学术界面前的重大难题。管理大数据如同管理企业员工一样,员工人数越多,管理起来越复杂,大数据管理也是如此。在数据量小、数据结构简单、数据来源少的情形下,数据管理相对简单,数据质量也相对容易保证; 但是在数据量大、变化速度快、结构复杂、来源众多的大数据情形下,保证数据质量并非易事。再加上国内大部分企业的大数据及数据质量重要性意识还较淡薄,大数据方案的建设及应用在我国尚不成熟,企业的数据存储分析技术、数据管理方案等各项配套设施和制度还不完善,可见保证大数据的质量任重而道远。因此,从数据收集、数据存储到数据使用,企业必须制定详细、缜密的数据质量管理制度,在数据库设计时要考虑大数据在各个方面可能发生的种种意外情形,利用专门的数据提取和分析工具,任命专业的数据管理人才加强对大数据的管理,提高员工的数据质量意识,以保证大数据的数据质量,从而挖掘出更多准确、有效、有价值的信息。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:大数据时代下数据质量的挑战