众所周知,这是一个信息时代———即充满数据的时代。随着
物联网的应用与发展,人们突然发现(事实上早就存在),数据量几乎成指数级增长。有这样一组数据:全球每天有43 亿部电话和20 亿位互联网用户在生成数据,并与300 亿个RFID 标签和数百颗人造卫星每秒都在不断发送更多信号融合在一起,其中,Twitter 每天就会增加12 TB 的数据———全文本,且每次最多添加140 个字符,而这只是数据在数量级上对大家的一种冲击。本文将从以下几个部分就大数据进行讨论。
1 大数据来源及数量
提到数据,相信IT从业人员首先想到的是数据库、数据仓库等技术,毕竟这是一种至今仍然十分流行且占据主导地位的技术。但请记住,这些技术是构建在关系型数据库理论基础上的,具有明显的结构化特征,换言之,存储在数据库、数据仓库中的数据是我们通过分析、建模之后筛选之后出来的、自认为有意义的数据。而在这个过程中,已经摒弃掉了许多自认为无意义的数据,真的没有意义吗?答案当然是否定的。但为什么要摒弃呢?原因很简单,以前的技术条件不允许存储如此庞大的数据量。
随着
物联网概念的提出、应用和发展,每天从RFID、传感器、控制器、智能设备中都会产生海量数据。据统计,在2000 年,全球存储了800 000 PB 的数据;预计到2020 年,这一数字会达到35 ZB[3]。所以,可以得出这样的结论:大数据从来就是存在的,只是因为技术条件的限制而没有重视或是故意规避而已。
2 大数据类型
以前保存的数据类型主要是结构化数据。然而,并非所有的数据都是可以结构化的,据统计,可结构化数据———即可以存储在数据库等传统系统(主要是指关系型数据库产品)中的数据占数据总量的20%左右;其他80%的数据不能至少是不便于存储于传统的系统中,因为其结构形式是非结构化的或者是半结构化的(如文本、传感器数据、音频、视频、事务及地震模型类的动态数据等非关系型数据)。
所以,从这个角度上来讲,大数据的类型从结构类型入手可以分为结构化、半结构化、非结构化数据3类。
3 大数据处理速度及方式
面对如此庞大的数据量、以及丰富(至少不再是单一的)的数据,不难想像,对于这些数据的处理速度将会成为企业应用、洞察关键事件的瓶颈。尽管目前还没有得到具体的可度量的值来说明这个问题,但换个角度来考虑,就日常工作中所使用的存储器的存储能力、CPU 频率的变化及不高的工作效率,就完全可以说明数据增长速率对数据处理速度的影响。
建议换个角度来考虑这个问题。随着
物联网时代的到来,RFID、传感器等产生的信息流将导致产生大量的传统系统无法处理的持续数据流。请牢记一点,现在处理的是PB 级的数据流,而非TB 级的,将来要处理的是ZB 级甚至有可能更高。所以,需要考虑针对数据产生、流动的速度而进行的数据处理方式的变革,如流数据处理;不再是单纯地处理传统系统中的批量数据。
4 大数据模型
大数据的本质构建如图1 所示。
图1 大数据模型
从图1 模型不难看出,大数据从本质上来讲包含数量、类型、速度3 个维度的问题,事实上,要想从根本上区别这3 个维度是不可能的。因为,大数据概念的提出是源于技术的发展:首先,以前的存储器技术不可能支持如此海量数据的存在;随着存储器技术的发展,才使得海量数据的存储逐渐成为可能,但也带来了另外一个问题———数据存储类型丰富起来;随着数据存储类型的丰富及数据的增长速度加速问题,导致了处理数据速度的问题,从而引起了处理数据技术的革命性变革。
5 大数据处理技术及策略
近年来,关于大数据处理技术的探讨一直不断,这方面最具代表性的就是Hadoop 框架 ,其本质是一个用于分析大数据集的机制,不一定位于数据存储中,可以扩展到无数个节点,处理所有活动和相关数据存储的协调。Hadoop 方法建立功能到数据的模型,而非传统的数据到功能的模型,这样就可以从可扩展性和分析的角度发现曾经几乎不可能的大数据处理变成可能。
由于Hadoop 布署的复杂性及不稳定性,使其应用到目前为止还不是十分广泛,但无论如何,其为大数据处理提供了一种途径和方式。IBM在Hadoop 的基础上发展了GPFS(General Parallel File System,通用并行文件系统)无共享集群及相关技术,提升了静止大数据处理效率;此外,还提出了SPL(StreamsProcessing Language,流处理语言),使得对流数据的处理成为现实并大大提升了实际工作效率。
针对处理大数据技术,得出图2 所示的大数据处理策略。
图2 大数据处理策略
如图2所示,对于大数据的处理策略可作如下理解:①按照类型进行分类处理;②对分类数据进行分类存储或流处理;③对经流处理的非结构化存储部分可转存到传统存储系统,也可直接生成数据应用;④对传统存储系统进行批量处理生成数据应用。
6 结束语
就大数据的来源、数量、类型、处理速度、处理方式等方面对大数据进行了探讨,给出了大数据模型;同时对大数据模型的3个维度进行解析,并简单介绍了大数据处理技术。对于数据工作者,尤其是数据分析师关注的对象及处理技术和策略有一定的引导作用。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:解析大数据
本文网址:http://www.toberp.com/html/support/11121810361.html