1. 引言
随着管理信息系统的广泛应用和逐趋完善, 相应的信息数据量也得到了快速增长, 人们所拥有的数据已经达到了极大的丰富。同时, 随着数据库技术应用的发展, 用户对于数据的应用提出了更高的要求, 用户己不仅仅满足于对事务处理的电子化与自动化, 还希望能够更多的对于数据进行分析、统计、趋势预测, 从而对于管理决策提供支持。由此, 数据仓库及相关技术应运而生。
2. 相关概念
2.1 数据仓库(Data Warehouse,DW)
W.H.Inmon 在他所著的《Building the Data Warehouse》一书中, 他给数据仓库作出的定义是: 数据仓库就是面向主题的、集成的、不可更新的、不同时间的数据集合, 用以支持经营管理中的决策制订过程。数据仓库的构建是一个处理过程, 该过程从历史的角度组织和存储数据, 并能集成地进行数据分析。
数据仓库系统由数据仓库、数据仓库管理系统、数据仓库工具三个部分组成。在整个系统中, DW居于核心地位, 是信息挖掘的基础;数据仓库管理系统负责管理整个系统的运作;数据仓库工具则是整个系统发挥作用的关键, 包含用于完成实际决策问题所需的各种查询检索工具、多维数据的OLAP 分析工具、数据挖掘DM工具等, 以实现决策支持的各种要求。
2.2 联机分析处理(Online Analytical Processing,OLAP)
OLAP 是一种重要的数据分析工具。OLAP 的概念最早是由关系数据库之父E.F. Codd 于1993 年提出的, 他认为联机事务处理OLTP(Online Transactional Processing) 己不能满足终端用户对数据库查询分析的需要, 因此他提出了多维数据库和多维分析的概念, 即OLAP 的概念[2]。OLAP 是针对多维数据集的数据处理过程, 它使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的, 能够真正为用户所理解的并真实反映企业维持性的信息进行快速、一致、交互地存取, 从而获得对数据的更深入了解的一类软件技术, 其目标是满足决策支持或多维环境特定的查询和报表需求。
2.3 数据挖掘(Data Mining,DM)
1995 年, 在美国计算机年会(ACM) 上, 提出了数据挖掘的概念。从商业角度看, 数据挖掘技术是一种新的商业信息处理技术, 它把人们对数据的应用从低层次的联机查询操作, 提高到决策支持; 从技术角度看, 数据挖掘就是从真实的、大量的、不完全的、有噪声的、模糊的和随机应用的数据中, 提取隐含在其中的、人们事先不知道的、但却是潜在有用的信息和知识的一个过程。
3. 数据仓库与数据挖掘、OLAP 之间的关系
3.1 数据仓库和数据挖掘之间的关系
数据仓库和数据挖掘都是从20 世纪90 年代中期发展起来的新技术, 数据仓库由数据库演变而来, 而数据挖掘则是从人工智能的机器学习演变而来, 是一种知识发现技术, 它负责从丰富的数据中发现有价值的模型。二者的关系总结为:
1、数据仓库系统的数据可以作为数据挖掘的数据源因为数据仓库系统已经按照主题将数据进行了集成、清理、转换, 因此数据仓库系统能够满足数据挖掘技术对数据环境的要求, 可以直接作为数据挖掘的数据源。如果将数据仓库和数据挖掘紧密联系在一起, 将获得更好的结果, 同时能大大提高数据挖掘的工作效率。
2、数据挖掘的数据源不一定必须是数据仓库系统作为数据挖掘的数据源不一定必须是数据仓库。它可以是任何数据文件或格式, 但必须事先进行数据预处理, 处理成适合数据挖掘的数据。数据预处理是数据挖掘的关键步骤, 并占有数据挖掘全过程工作量的很大比重。
虽然数据仓库和数据挖掘是两项不同的技术, 但是它们又有共同之处, 两者都是从数据库的基础上发展起来的, 它们都是决策支持新技术。数据仓库利用综合数据得到宏观信息, 利用历史数据进行预测; 而数据挖掘是从数据库中挖掘知识, 也用于决策分析。虽然数据仓库和数据挖掘支持决策分析的方式不同, 但是它们可以结合起来, 提高决策分析的能力。
3.2 数据仓库与OLAP 的关系
建立数据仓库的目的是为了支持管理中的决策制定过程,OLAP 作为一种多维查询和分析工具, 是数据仓库功能的自然扩展, 也是数据仓库中的大容量数据得以有效利用的重要保障。
在数据仓库中, OLAP 和数据仓库是密不可分的, 但是两者具有不同的概念。数据仓库是一个包含企业历史数据的大规模数据库, 这些历史数据主要用于对企业的经营决策提供分析和
支持。而OLAP 技术则利用数据仓库中的数据进行联机分析,OLAP 利用多维数据集和数据聚集技术对数据仓库中的数据进行组织和汇总, 用联机分析和可视化工具对这些数据迅速进行评价, 将复杂的分析查询结果快速地返回用户。
随着数据仓库的发展, OLAP 也得到了迅猛的发展。数据仓库侧重于存储和管理面向决策主题的数据, 而OLAP 的一个主要特点是多维数据分析, 这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。因此, OLAP 技术与数据仓库的结合可以较好地解决传统决策支持系统既需要处理大量数据又需要进行大量数值计算的问题, 进而满足决策支持或多维环境特定的查询和报表需求。
3.3 数据挖掘与OLAP 的关系
数据挖掘与OLAP 都是数据库( 数据仓库) 的分析工具, 但两者之间有着明显的区别。前者是挖掘型的, 后者是验证型的。前者建立在各种数据源的基础上, 重在发现隐藏在数据深层次的对人们有用的模式并做出有效的预测性分析, 一般并不过多考虑执行效率和响应速度[4]; 后者建立在多维视图的基础之上,强调执行效率和对用户命令的及时响应, 而且其直接数据源一般是数据仓库。
数据挖掘能自动地发现隐藏在大量数据中的隐含模式, 它与其他分析型工具最大的不同在于它的分析过程是自动的。一个成熟的数据挖掘系统除了具有良好的核心的技术外, 还应该
具有开放性的结构, 友好的用户接口。数据挖掘的用户不必提出确切的问题, 而只需挖掘工具去挖掘隐藏的模式并预测未来的趋势, 这样更有利于发现未知的事实。
OLAP 是一种自上而下、不断深入的分析工具, 由用户提出问题或假设, OLAP 负责从上至下深入地提取出关于该问题的详细信息, 并以可视化的方式呈现给用户。与数据挖掘相比, OLAP 更多地依靠用户输入问题和假设, 但用户先入为主的局限性可能会限制问题和假设的范围, 从而影响最终的结论。因此, 作为验证型分析工具, OLAP 更需要对用户需求有全面而深入的了解。
显然, 从对数据分析的深度来看, OLAP 位于较浅的层次,而数据挖掘所处的位置则较深, 数据挖掘可以发现OLAP 所不能发现的更为复杂而细致的信息。尽管数据挖掘与OLAP 存在着上面的差异, 但作为数据仓库系统的工具层的组成部分, 两者是相辅相成的。
4. 结束语
数据仓库和数据挖掘、OLAP 虽然是三种不同的信息技术,但其目标却都是辅助决策, 所以它们之间又存在着千丝万缕的联系。数据仓库拥有丰富的数据, 但只有通过OLAP 和数据挖掘才能使数据变成有价值的信息, 才能体现出数据仓库的辅助决策功能, 否则永远都是数据丰富、信息匮乏; 反之, 尽管OLAP 和数据挖掘并不一定要建立在数据仓库的基础之上, 但数据仓库却能提高两者的工作效率, 让两者有更大的发展空间。
同为数据分析工具的数据挖掘与OLAP, 随着OLAP 的发展, 两者的界限正在逐渐模糊, 因为越来越多的OLAP 厂商将数据挖掘的方法融入他们的产品中, 这可能是OLAP 产品的一个发展方向。在整个决策分析系统中, OLAP 与数据挖掘以及其他分析工具由于内在技术以及适用范围的不同, 必须协调使用才能发挥最佳的作用。OLAP 与数据挖掘各有所长, 如果能将二者结合起来, 发展一个建立在OLAP 和数据挖掘基础上的新的挖掘技术, 将更能适应实际的需要。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:数据仓库、数据挖掘及OLAP 之两两关系
本文网址:http://www.toberp.com/html/consultation/10820616298.html