靠度函数RE4(t)同样逐渐趋近于1,结合式(17)可推断,增加计算节点和存储节点的数量,整个可靠度R(t)将会逐渐增大,系统可靠性越来越高。对式(16)中系统寿命分布函数X求定积分,即可得系统平均无故障时间MTTF。因此,系统将计算任务分散到各个节点的策略是可靠的,同时可使平均无故障时间MTTF趋近于理想值。
4 存储结构设计与算法实现
4.1存储结构设计
存储结构设计包含两个方面的内容:一是设计元数据管理区数据结构;二是设计BLOB数据存储区数据结构,其核心内容是设计用于存储BLOB数据及其元数据的二维表。其中:MA统一管理所有的BLOB数据序号Guid,而M1,M2等服务器则分散且不重复地存储详细元数据信息。主元数据管理单元MA中所包含的元组如表1所示,详细元数据元组如表2所示。BLOB存储节点中数据结构相对简单,其中包含一个image类型的字段,用于存储BLOB数据流。
表1~2中,Guid须设置为主键索引;表2中的MIMEType用于记录BLOB数据的媒体类型,如AVI视频的资源类型描述符为video/x-msvideo,在下载该BLOB数据时,便于为该资源匹配相应文件类型以完成数据还原。
表1 主元数据管理单元MA的基本元组
表2 详细元数据存储节点的基本元组
4.2分布式存储算法实现
非结构化数据存取算法涉及两个重要方面:其一,BLOB数据在RDBMS下的插入、删除、更新和读取操作方式有别于文件系统;其二,多用户并发式访问频度高,负载均衡、容错性及鲁棒性需重点考虑。各数据操作的处理流程如图3所示,而图6以单用户提交非结构化数据为例,具体说明了BLOB数据流及元数据流的处理过程,其他数据操作算法可参照图6,此处不再一一叙述。
5 仿真实验
5.1仿真实验硬软件环境
为对分布式非结构化数据存储的可靠性和稳定性进行评估,存储系统的硬件及软件仿真环境如下。硬件环境存储服务硬件部署于园区IP骨干网,BLOB存储节点及Metadata存储节点均采用2.4GHz的Intel至强处理器,4GB内存,2TB存储容量的Adaptec RAID5硬盘阵列,1Gbps背板带宽,桌面带宽100Mbps。
软件环境各服务器均安装Windows Server 2008操作系统,并在系统中配置IIS7.0组件和.NET Framework V3.5,数据库系统采用SQL Server 2000(SP4),此外,运行于BLOB存储节点上Web应用程序提供非结构化数据存取接口,运行于Metadata存储节点上的应用程序提供元数据管理接口,仿真软件选用HP LOAd Runner 11.0。
图6 用户提交非结构化数据算法流程
5.2单用户上传/下载BLOB数据性能分析
测试场景单用户向系统上传/下载大小为731.2MB的文件,实验所涉及的服务器有BLOB存储节点B1、主元数据存储节点MA和详细元数据存储节点M1。
实验中,一个731.2MB的BLOB文件可在147s内完成存取操作,上传数据平均传输速率为39.0Mbps,下载数据平均传输速率为56.4Mbps。同时,记录该数据在各时刻的上传及下载传输速率,经统计如图7所示。
由图7中可看出,单用户向存储系统下载数据的性能优于上传数据的性能,其主要原因在于,写入数据调用了.NET中的运算开销较大的功能函数ExecuteNonQuery( ) ,而读取数据调用了运算开销较小的ExecuteDataReader( )函数。整体来看,传输速率比较平稳,没有出现抖动和失效现象。
图7 单用户存取非结构化数据性能
5.3非结构化数据存储系统响应仿真
测试场景待写入BLOB数据24.9MB,单节点存储系统及多节点存储系统各一组。其中:单节点存储系统将BLOB数据及Metadata数据合并于一台服务器上存储;多节点存储系统由4台BLOB存储节点和4台元数据存储节点组成。向两系统发出随机写入数据请求,统计两系统从提交数据到结果返回的时间,统计数据如图8所示。
由图8可看出,用户随机向存储系统写入一个24.9MB的文件时,随着写入请求数量的增长,分布式存储系统的平均响应时间总是低于单节点存储系统。另一方面,图8所示分布式存储响应曲线变化较平缓,而单节点存储系统曲线变化较显著,表明用户数量的增长对分布式存储系统无太大影响,存储性能相对稳定。
图8 分布式存储与单节点存储响应时间对比
5.4BLOB存储节点扩展对存储性能影响
测试场景将BLOB存储节点数量由4个增加至8个,考察系统聚合读写性能。
由图9可知,随着非结构化数据存储节点的增长,系统聚合读写性能呈线性增长,表明系统具有较好的可扩展性。
图9 扩展存储节点后系统聚合读写性能
5.5结果与讨论
实验表明,无论采用单节点存储方式还是多节点的分布式存储方式,数据分离式的分布式存储算法都可将BLOB数据可靠存入RDBMS,总体上看,尽管向系统写入数据的效率低于读取数据的效率,在用户请求总量不断增加的情况下,系统仍具有较高的响应比,且在系统扩展实验中发现,系统的可扩展性较好。
6 结语
面对非结构化数据增长难题,传统的结构化数据存储系统,已无法应对云计算系统庞大的数据存储需求。基于RDMBS的非结构化数据存取系统,将海量非结构化数据直接存储于关系数据表中,实现了数据的可靠存取。通过分离BLOB数据和Metadata存储通路,设计了分布式的硬件结构和存取算法,将存储负载均匀分布于各个节点。统一的元数据管理方式和预留的扩展接口,既便于用户对所有数据进行统一使用管理,也便于聚合I/O处理能力的增强和存储规模的进一步扩展,以适合不断增长的云存储需求。
下一步的研究工作是如何优化存储结构和算法,以改善存储系统每秒输入输出量(Input/Output Operations PerSecond,IOPS)和进一步提升聚合处理能力。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:面向云存储的非结构化数据存取(下)