3.2数据分级方法的性能
本文通过在Tri-Right系统上进行trace驱动的实验,评价了AutoMig的性能,实验中使用的文件访问trace是由加州大学伯克利分校的Roseli等人采集的research trace。
为了创建分级存储系统中真实的数据分布状态,在播放访问trace的同时,模拟重演了30天的文件迁移行为,不管trace中的访问间隔,记录文件迁移状态而不进行真正的数据操作,得到最终的系统状态,包括文件大小、文件位置、LRU队列信息和访问情况统计等,然后,在Tri-Right系统中将模拟得到的系统状态恢复过来,这样,既得到了实验所需的初始状态,又避免了真实系统上长期播放trace所需的大量时间。
在Tri-Right系统上播放research trace中第31天前12 h的访问记录,高速存储设备容量取值为1 GB.元数据服务器软件分别采用LRU,GreedyDualSize和AutoMig 3种数据分级策略,前面两种数据分级策略数据升级评价都是采用on-demand方式,有访问就升级迁移;数据降级评价分别采用LRU和GreedyDualSize算法进行替换。
图3给出了使用3种不同数据分级策略下前台I/O的平均响应时间的变化情况,横坐标为trace摇放时间,对应纵坐标表示从O到该时间点范围内的平均I/O响应时间,可以看出,在几乎全部实验过程中,AutoMig的平均I/O响应时间明显低于使用其他两种策略时的平均I/O响应时间,结果表明:与LRU和GreedyDualSize相比,AutoMig的平均I/O响应时间分别下降了10. 11%和39. 39%。
图3 不同数据分级策略下的响应时间对比
AutoMig响应时间更短的原因在于AutoMig迁移更少的数据量,图4对比了3种数据分级策略的数据迁移总量,在使用AutoMig策略时,数据迁移量比LRU和GreedyDuaISize分别减少了70. 71%和90, 47%。
图4 不同数据分级策略下的数据迁移量对比
3.3 关联文件挖掘的效果
这一组实验使用的文件访问trace是伯克利的instruction trace.把长的访问trace切割成序列数据库,使用的切割长度为100-实验中,最小支持度和最小可信度都取不同的值。
AutoMig首先要得到频繁闭合序列,在得到频繁闭合序列后,需要进一步生成无冗余的强关联规则,实验中,我门针对0. 3,0. 4,0.5三种不同的最小支持度选取频繁闭合序列,最小可信度阈值都取值为85%,图5给出了AutoMig生成的无冗余的强关联规则个数,并分别给出了“1-规则”和“2-规则”的数目,可以看出,从文件访问trace中能够得到大量关联规则,另外,“2-规则”的数目相当可观,已有的文件预取方法忽略掉文件之间的3者关系,确实丢掉了一些宝贵的文件预取机会。
图5 生成的无冗余的强关联规则
下面测试最小可信度取值对所生成的关联规则的数目的影响,最小支持度阈值固定为0.5,将最小可信度阈值从75%改变到90%,图6给出了最小可信度取值不同时生成的关联规则的数目,可以看出,随着最小可信度阈值的增加,所生成的关联规则明显减少,当最小可信度阈值取为90%时,关联规则数目为698,在最小可信度阈值从75%变化到90%的过程中,关联规则数目都较大。
图6 最小可信度取值对生成关联规则的影响
3.4 速率控制的效果
评价AutoMig的速率控制效果包括微观测试和宏观测试2部分,首先是从微观上观察AutoMig在负载变化时是如何控制数据迁移速率的,播放伯克利的research trace的同时,在Tri-Right系统内部记录负载变化情况,以及相应的数据迁移速率,实验中系统参数取值为W=100 IOPS.图7给出了前台I/O负载密集程度和数据迁移速率的对应关系,随着负载的波动,迁移速率相应地动态变化,速率变化的拐点都是受当前负载状态反馈的影响,同时,迁移速率并不完全随着负载抖动而抖动,而是反映负载变化的整体趋势。
图7 迁移速率随负载的变化
宏观测试是对比在完成同样的迁移任务时,使用和不使用AutoMig迁移速率控制下前台I/O响应时间,实验中迁移20个大小为512 MB的文件,使用并行文件系统性能测试工具IOR来生成前台I/O负载,并收集I/O延迟,每次测试包括两轮循环,每轮循环都包括文件打开、读写、关闭等操作。
图8给出了有无AutoMig速率控制的前台I/O响应时间对比,其中,read0,write0分别表示第1轮循环中的读、写请求的平均响应时间;readl,writel分别表示第2轮循环中的读、写请求的平均响应时间,对比有无AutoMig速率控制2种情况:第1轮循环中的写请求,AutoMig速率控制降低了前台I/O响应时间47.84%;第1轮循环中的读请求,AutoMig速率控制降低了前台I/O响应时间13.03%。第2轮循环中的写请求降低了前台I/O响应时间29.98%;第2轮循环中的读请求降低了前台I/O响应时间40.47%。
图8 有无AutoMig速率控制的前台I/O响应时间对比。
4 结论
本文提出了分级存储系统中一种数据自动迁移方法AutoMig.数据动态分级策略综合考虑了文件访问历史、文件大小、设备的空间利用情况,在大幅降低数据迁移量的同时,提供更高的I/O性能,使用数据挖掘技术来有效识别系统中的文件关联性,预取被访问文件的关联文件可以降低对这些文件的访问延迟,数据迁移的速率控制,在前台I/O性能影响和数据迁移完成期限之间寻找合理的权衡。AutoMig方法已用于分级存储系统中,实验结果表明AutoMig有效缩短了前台I/O响应时间。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:分级存储系统中一种数据自动迁移方法(下)