| 当前位置：拓步ERP资讯网 >>服务支持 >>ERP技术支持 >>技术支持知识库

云计算环境中的数据挖掘存储管理设计

发布日期：2013-05-20 7:58:43 来源：www.toberp.com 编辑：拓步ERP资讯网浏览：评论

摘要：本文针对当前金融、证券、保险等行业数据信息管理不规范的局面,需要运用云计算技术对数据进行存储管理,提升数据信息的存取能力,通过对云计算技术的应用研究,可以提升金融行业数据挖掘能力。具体实施过程中采取开源框架无疑是一条捷径。但是,借鉴和使用开源框架需要结合各自的实际需求,通过分析Hadoop的特点。把HDFS作为Hadoop的研究基础,把HDFS的部分特点运用到实际项目中,建立HDFS完全支持的关系数据模型,提升数据信息挖掘能力。 原标题：云计算环境中的数据挖掘存储管理设计 原作者：发表时间：2013/5/20 金龙来源：万方数据

1．引言

Hadoop提供了一个基于HDFs的简单数据库HBase，它的设计思想和数据模型都与Google开发的模型简化的大规模分布式数据库BigTabIe极为相似。HBase不支持完全的关系数据模型，只为用户提供了简单的数据模型，让客户来动态控制数据的分布和格式。从数据模型角度看，HBase是一个稀疏的、长期存储的(存在硬盘上)、多维度的、排序的映射表。这张表的索引是行关键字、列关键字和时间戳。每个值是一个不解释的字符数组，用户需要自己解释存储的字串的类型和含义。这种模型具有很大的灵活性，通过仔细选择数据表示，用户可以控制数据的局部化。但是这种灵活性的代价就是不支持完全的关系数据模型，这导致传统的数据存储格式无法应用于HBase。Google自身的GFS是为网页搜索功能量身定做的，采用BigTable的简单数据模型可以以字符串形式灵活存储网页的URL、时间戳等信息。HDFS的设计完全借鉴了GFS的思想，因此从目前的版本来看，HDFS对网页搜索具有较好的支持，但是对于使用传统的关系数据模型的产品来说，HDFS并不是一个很好的选择，因为它不能提供传统的关系数据库的相关功能。如上所述，以Hadoop为例，目前的开源解决方案并不完全适用于某公司的新产品需求，因此我们需要参照现有解决方案，设计符合自身需要的新方案。

2．DDF的数据划分策略

面对大量的异构的用户数据，我们有必要对数据进行划分，以期得到更好的查询性能。

数据划分策略可分为垂直数据划分(Horizontal panition)和水平数据划分(VerticaI partition)，在DDF中同时采用了这两种划分策略。垂直数据划分是按照功能划分：

(1)首先把对象数据、查询数据和其他数据划分到不同的数据表中(数据库的表)。

(2)对于对象数据，由于是按对象类型(Object type)访问的，那么我们可以进一步按照对象类型进行垂直划分，把不同类型的对象数据划分到相应的数据表中。

(3)对于查询数据，在目前的研究阶段，也将其按照对象类型进行垂直划分，存储到相应的数据表中。

另外，采用对象的全局标识(UID)的哈希值(Hash)进行水平划分，从而将对象数据划分到不同的数据节点(Datanode)的策略，需要面对数据迁移的问题，即当增加新的数据节点时，如何确保原有数据节点上的数据不进行或者尽量少进行迁移。

3.DDF的数据存储策略

DDF借鉴了HDFS的设计思想，在架构中引入了数据节点的概念，整个数据存储策略的设计理念如下。

(1)每个数据划分只可能存放在同一个数据库中，不允许一个数据划分分裂存放在多个数据库的情况出现。但是，具有相同数据对象类型的不同划分可以存放在不同的数据库中。

(2)允许不同类型的数据(如对象数据和查询数据)采用不同的划分策略。

(3)概念层次上的划分和存储层次上的数据库是一个多对多的关系，也就是说，我们甚至可以将所有的划分存放在同一个数据库内．这种极端情况同样是被允许的。

(4)当我们将一个划分指定给一个数据库时，它们的对应关系应被记录，这样在查询数据时可以定位到正确的数据库。

4．DDF的节点划分策略

DDF的节点划分策略是建立在数据划分和数据存储策略的基础之上的，节点划分策略从应用层面上描述了DDF各节点的功能。

对于收到的远程更新和查询操作的请求，调度节点必须进行分析，以判断这些操作的作用域。如果操作与当前位置的数据无关，那么这些更新和查询操作会被拒绝。数据节点则应具有以下功能：

(1)存储数据。

(2)处理索引相关的请求。

(3)处理查询请求。

(4)负责部分对查询结果进行分页的功能。

(5)创建并管理集合对象(对缓存的查询)。

(6)负责对过期数据进行处理，这包括删除与过期数据相关的对象和索引。

数据节点本身并不关心数据的位置问题，调度节点应该关心数据所处的位置。数据对象的全局标识符决定了它应该位于哪个位置。

核心关注：拓步ERP系统平台是覆盖了众多的业务领域、行业应用，蕴涵了丰富的ERP管理思想，集成了ERP软件业务管理理念，功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理，全面涵盖了企业关注ERP管理系统的核心领域，是众多中小企业信息化建设首选的ERP管理软件信赖品牌。

转载请注明出处：拓步ERP资讯网 http://www.toberp.com/

本文标题：云计算环境中的数据挖掘存储管理设计

本文网址：http://www.toberp.com/html/support/1112159108.html

关键词标签： 云计算环境中的数据挖掘存储管理设计,云计算数据挖掘存储管理,ERP,ERP系统,ERP软件,ERP系统软件,ERP管理系统,ERP管理软件,进销存软件,财务软件,仓库管理软件,生产管理软件,企业管理软件,拓步,拓步ERP,拓步软件,免费ERP,免费ERP软件,免费ERP系统,ERP软件免费下载,ERP系统免费下载,免费ERP软件下载,免费进销存软件,免费进销存,免费财务软件,免费仓库管理软件,免费下载,

本文转自：e-works制造业信息化门户网

本文来源于互联网，拓步ERP资讯网本着传播知识、有益学习和研究的目的进行的转载，为网友免费提供，并尽力标明作者与出处，如有著作权人或出版方提出异议，本站将立即删除。如果您对文章转载有任何疑问请告之我们，以便我们及时纠正。联系方式：QQ：10877846 Tel：0755-26405298。

上一篇：路由器分布式控制研究综述

下一篇：一种基于属性的企业云存储访问控制方案

相关文章

服务支持

拓步ERP系统软件平台11.5专业版v10.1.2...

拓步ERP系统平台库存管理系统培训视频教材


	ERP新闻动态拓步新闻行业新闻关注产品观点纵横企业管理企业应用

	ERP解决方案按ERP应用行业分类按ERP企业规模分类按ERP管理领域分类按ERP软件功能分类按ERP系统特性分类用友ERP解决方案金蝶ERP解决方案易飞ERP解决方案速达ERP解决方案其他ERP解决方案

	ERP顾问咨询 ERP管理咨询 ERP战略诊断 ERP流程分析 ERP流程优化 ERP风险分析 ERP可行性研究 ERP整体规划 ERP选型招标 ERP实施监理 ERP评审验收 ERP绩效评价 ERP基础知识 ERP课程培训 ERP培训教育 ERP视频教材

	CIO技术专栏 CIO企业应用 CIO网络通信 CIO信息安全 CIO基础设施 CIO云计算

	ERP技术支持技术支持知识库常见问题资料库在线学习资料库日常办公资料库企业管理知识库

	ERP系统价格拓步ERP系统价格体系拓步EIS软件价格体系合作品牌ERP价格体系技术支持服务价格体系

	合作品牌用友UFIDA 金蝶KingDee 神州数码Digital 速达SuperData 拓步ERP系统成功案例

	代理加盟合作联盟策略代理合作指南代理联盟前景联盟技术支持快速搜索ERP软件资讯

	关于拓步公司介绍公司愿景企业文化诚聘英才联系我们在线留言在线订购意向下载体验登记

ERP技术支持

技术支持知识库

常见问题资料库

在线学习资料库

日常办公资料库

企业管理知识库

ERP系统教程

ERP免费下载

ERP在线咨询

即时联系

服务热线

快捷互动

猜您喜欢