| 当前位置：拓步ERP资讯网 >>管理咨询 >>CIO技术专栏 >>CIO云计算

如何进行分布式大数据应用调优

发布日期：2014-03-17 8:10:36 来源：www.toberp.com 编辑：拓步ERP资讯网浏览：评论

摘要：分布式环境通常是与数据库服务器相分离的。而DBA的工作就是监视这些环境并配置和优化数据库服务器以满足多种需求。大数据的出现加剧了DBA的问题。 原标题：如何进行分布式大数据应用调优 原作者：发表时间：2014/2/17 张亮亮来源：机房360

大数据的出现加剧了DBA的问题，因为现在多个分布式应用需要访问一个非常庞大的数据存储。那么在DB2的环境下，有哪些可用调优的方法呢?

　　DBA必须首先解决常见的应用性能瓶颈。如果数据可用性或性能已经很差，那么面向高性能访问大数据就会出现问题。这里是一份常见的调优问题列表，DBA要确保数据库存在这些流程以减轻这些潜在的问题。

　　数据访问模式的糟糕设计

　　如果表中某个记录集访问频繁，那么它们便可成为一个“热点”。比如一个按订单号排序的订单表。最近的订单会在它们处理的时候更加活跃。由于多个应用程序和工具访问少量记录，那么数据访问的影响就会集中在数据库中的一个小范围内。当某些事务锁定或声明数据时，而其他应用程序或工具试图对它们进行访问，这通常就会导致性能问题。

　　这样的热点可以在数据库设计阶段加以预测。DBA可以在数据库中嵌入空白空间来分散数据，这样就降低了在一个物理点活动的集中程度。其他选项包括分配记录到整个数据库的方法。在我们以上的订单表例子中，DBA可能会实现以地理位置进行排序而非按订单号排序的表。这样，新订单就不会彼此相邻，而是分布于整个物理表。

　　过度加锁

　　在DB2环境中有两个流程级别可以“存储”数据：SQL流程和数据库工具。SQL流程包括应用程序发布静态SQL语句和动态发布的SQL语句。SQL会发布针对数据的锁，并且这些锁通常会避免数据正在被读取的时候并发更新。此外，加锁会避免诸如Load之类的工具加载数据，这会导致取代或是覆盖正在被读取的数据。工具会发布针对数据的声明。一条声明类似于数据库锁，是因为它可以通过实体来保留数据以供访问并避免某些并发的SQL访问。一般来说，加锁会强制声明去等待，而声明会强制SQL操作去等待。这就允许数据库管理系统可以管理多个诸如Load或是Image Copy之类的并发工具，而不用受到SQL语句的干扰。

　　最常见的加锁问题是SQL语句锁定太多的数据。一条SQL语句读取一条记录通常会在此SQL语句执行期间锁定多条记录为只读。这种行为在多个地方是受控的，包括语法，数据库定义，以及通过应用程序提交语句的用法。DBA应该审查SQL语句加锁行为来确保锁定最小量的数据。了解锁定对象的大小和应用是如何访问数据的。

　　长期运行的应用程序可能会长时间锁定数据，从而降低了数据可用性。考虑记录级别的锁定来最小化SQL的影响，尽管这可能会导致用于管理加锁的CPU时间有所上升。应用程序提交逻辑同样应该加以审查，提交会释放锁定并允许数据访问。此外，DBA应该审查应用程序和工具的调度。例如，验证诸如Image Copy这类工具在应用程序做数据库更新的时候没有在并发运行。

　　大数据应用调优

　　大数据通常意味着一个需要高速数据分析软件的大型数据存储。很多时候这些大数据部署与企业数据仓库共存。这意味着DBA人员必须与数据仓库人员进行协作以保证良好的性能。下面提到的一些点需要我们充分考虑：

　　置于一个专门的软硬件一体化设备中的大数据必须经常由数据仓库表同时进行访问。这通常是利用SQL连接语句加以实现的。DBA必须协调大数据设备的加载和数据仓库的ETL流程以确保所有数据在查询阶段是可用的。

　　存储于非常大的DB2表中的大数据可能会有特殊的恢复需求。考虑一个要每天进行分析的事务数据的大型存储。业务管理者可能会认为此分析对日常生产至关重要，从而指定此数据为关键任务。如果发生故障，这些数据要怎样才能恢复呢?对于一个数据仓库最佳的做法就是指定数据在恢复上为低优先级的。

　　存储在DB2表中的大数据可能需要DBA去降低或是最小化数据上索引的数量。虽然通常来说可以添加多个索引到一个表来改善查询性能，而对于非常大的表其索引也会很大。磁盘存储限制可能会阻止DBA创建某些索引。此外，更多的索引会减缓数据插入性能，同样还会让任何数据库恢复过程运行更长的时间。

数据仓库访问优化

　　数据仓库的ETL流程有其自身独特的性能问题。数据提取流程通常会作为多个并行数据查询流程加以执行。数据仓库团队可能会使用高速网络来加速这一流程。由于可操作数据可能不是以易于分析的形式呈现的，因此数据转换需要编程技能。常见问题有空值，缺失或未知数据，甚至是诸如日期值为“99/99/9999”的无效数据。加载流程通常包括多个针对仓库表并发加载的工具。加载通常是长期运行和资源密集型的。

　　由于分布式应用试图访问大数据，它们也不可避免的会访问数据仓库数据。再次，DBA必须将此过程与数据仓库ETL过程加以协调。常见的方法是架设有两个分区的表，活动和非活动分区。目标表物理上被分为数据集和分区。一个分区被指定为活动分区，而一个控制表或参数被设置用来指示哪个分区是活动的。分布式查询现在可能访问活动的数据，允许加载流程把数据加载到非活动分区。一旦加载完毕，活动和非活动标记就会切换。

　　分布式处理和大数据

　　优化分布式访问性能的一个最佳实践是使用资源约束分析。DBA会在收集性能数据的时候监视诸如磁盘子系统和CPU之类的资源。甚至查询和工作运行时间也可以被当做是资源。当DBA发现某项资源受限时，他们会平衡其他资源以进行弥补。

　　大数据可能意味着大的性能问题，并且通过分布式应用程序进行访问会将这些问题进一步复杂化。DBA可以通过考虑以下方面来主动了解这些问题：

　　·数据库设计选项；

　　·执行资源约束分析；

　　·利用Explain优化分布式查询；

　　·协调大数据访问和数据仓库访问；

　　分布式应用程序对于DBA来说可能会是个挑战。通过解决当前以及潜在的数据可用性问题作为开始，尤其是那些企业数据仓库中的问题。一旦这些担忧得以缓解，那么DBA就可以开始管理对大数据的分布式数据访问。

核心关注：拓步ERP系统平台是覆盖了众多的业务领域、行业应用，蕴涵了丰富的ERP管理思想，集成了ERP软件业务管理理念，功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理，全面涵盖了企业关注ERP管理系统的核心领域，是众多中小企业信息化建设首选的ERP管理软件信赖品牌。

转载请注明出处：拓步ERP资讯网 http://www.toberp.com/

本文标题：如何进行分布式大数据应用调优

本文网址：http://www.toberp.com/html/consultation/10839712549.html

关键词标签： 如何进行分布式大数据应用调优,大数据分布式环境 DB2 大数据调优数据仓库,ERP,ERP系统,ERP软件,ERP系统软件,ERP管理系统,ERP管理软件,进销存软件,财务软件,仓库管理软件,生产管理软件,企业管理软件,拓步,拓步ERP,拓步软件,免费ERP,免费ERP软件,免费ERP系统,ERP软件免费下载,ERP系统免费下载,免费ERP软件下载,免费进销存软件,免费进销存,免费财务软件,免费仓库管理软件,免费下载,

本文转自：e-works制造业信息化门户网

本文来源于互联网，拓步ERP资讯网本着传播知识、有益学习和研究的目的进行的转载，为网友免费提供，并尽力标明作者与出处，如有著作权人或出版方提出异议，本站将立即删除。如果您对文章转载有任何疑问请告之我们，以便我们及时纠正。联系方式：QQ：10877846 Tel：0755-26405298。

上一篇： “云”数据中心发展趋势

下一篇：大数据：生者与死者

相关文章

管理咨询

拓步ERP系统软件平台11.5专业版v10.1.2...

拓步ERP系统平台库存管理系统培训视频教材


	ERP新闻动态拓步新闻行业新闻关注产品观点纵横企业管理企业应用

	ERP解决方案按ERP应用行业分类按ERP企业规模分类按ERP管理领域分类按ERP软件功能分类按ERP系统特性分类用友ERP解决方案金蝶ERP解决方案易飞ERP解决方案速达ERP解决方案其他ERP解决方案

	ERP顾问咨询 ERP管理咨询 ERP战略诊断 ERP流程分析 ERP流程优化 ERP风险分析 ERP可行性研究 ERP整体规划 ERP选型招标 ERP实施监理 ERP评审验收 ERP绩效评价 ERP基础知识 ERP课程培训 ERP培训教育 ERP视频教材

	CIO技术专栏 CIO企业应用 CIO网络通信 CIO信息安全 CIO基础设施 CIO云计算

	ERP技术支持技术支持知识库常见问题资料库在线学习资料库日常办公资料库企业管理知识库

	ERP系统价格拓步ERP系统价格体系拓步EIS软件价格体系合作品牌ERP价格体系技术支持服务价格体系

	合作品牌用友UFIDA 金蝶KingDee 神州数码Digital 速达SuperData 拓步ERP系统成功案例

	代理加盟合作联盟策略代理合作指南代理联盟前景联盟技术支持快速搜索ERP软件资讯

	关于拓步公司介绍公司愿景企业文化诚聘英才联系我们在线留言在线订购意向下载体验登记

ERP顾问咨询

ERP原理知识

ERP实施培训

CIO技术专栏

CIO企业应用

CIO网络通信

CIO信息安全

CIO基础设施

CIO云计算

即时联系

服务热线

快捷互动

猜您喜欢