伴随着全球化电子商务、无纸化办公和云计算的大规模开展,在各种应用系统的存储设备上,信息正以数据存储的TB甚至是PB级方式高速增长。正如EMC CEO乔图斯对股东们说的那样“IT行业出现了最势不可挡的两种趋势:云计算和海量数据”。伴随着云计算的迅猛发展,海量数据的高效存储需求和管理成为一个研究的重点。高效存储不仅可以为用户提供更高效的存储,而且还可以降低用户成本,实现高效低碳的环保型存储。
随着绿色IT的提出,存储系统作为IT架构的重要组成部分,当仁不让地承担了节能降耗的重担。浪潮存储及时退出了自己的产品LiveStor,LiveStor系统解决了用户的需求,满足了对数据的高效存储和管理。本文基于LiveStor系统对大数据量存储常用策略进行分析研究,这其中主要用到了多协议访问技术、存储虚拟化、自动精简配置、重复数据删除和分级存储等关键技术。
1.高效存储技术特点分析
1.1 海量数据存储的特点
伴随着云存储等技术的发展,各企业对数据的存储和管理显得尤为重要。高效、低碳、易管理的存储解决方案成为浪潮存储研究的一个重要方向,浪潮存储与其他传统的存储相比具有以下优势:
1)易于扩展、成本低廉:存储系统支持自动精简配置,可以很方便地支持扩充容量。减少各单位存在的硬盘空问浪费,用户根据自己的需要向服务器弹性地申请所需要的空间,降低了用户的使用成本。
2)方便管理、可靠性高:易于管理是存储系统设计时重点考虑的问题,数据采用集中存储的方式。由数据中心的管理员对数据进行统一管理、数据保护、安全控制,并能更可靠地进行数据的远程复制和备份还原,降低了数据风险。
3)高效存储:支持多协议访问技术,用户可以通过SAN和NAS存取自己数据,支持重复数据删除技术,提高存储的利用率。
1.2 存储虚拟化
存储虚拟化是将零散的存储资源整合起来,构建海量存储资源池。从而提高整体的利用率,同时降低系统的管理成本。其基本思想是将资源的逻辑映像与物理存储分开,从而为系统和管理员提供一简化、无缝的资源虚拟视图,这其中一个莺要的概念就是存储池。存储池屏蔽了底层存储的差异,使用户屏蔽具体磁盘、磁带等存储设备的差异,也不必关心自己的数据经过哪一条路径通往哪一个具体的存储设备。存储虚拟化可以提高存储空间的利用率,与传统的空间管理和静态虚拟化空问管理相比,动态虚拟化空间管理是后端存储具有更高的利用率,如图1所示,LiveStor是采用动态虚拟化空间管理策略来实现存储的。
图1 存储虚拟化管理
例如,给用户A和B提前分配好100GB的存储空间。真正使用时,用户A可能不到5GB,而用户B可能需要190GB,这样真实的物理存储如果最开始是200GB时,静态虚拟化无法满足需求。需要对用户B的容量扩展至190GB满足需求,总物理容量将达到100+190=290GB,分配的容量利用率为195/290=67.2%;基于动态虚拟化管理技术的LiveStor,物理容量为200GB组成资源池,在存储池上建立逻辑卷,用户A和用户B所在卷组分别为vol1和vol2。分别为200GB,用户A只消耗5GB,则只分配5GB,用户B消耗190GB,则分配190GB,最终利用率达到195/200—97.5%,该方案大大提高了利用率。
1.3多协议支持
后端存储通过LiveStor可以向服务器提供SAN和NAS服务,方便用户的使用和数据的存储,提高了后端存储的高可用性,如图2所示。NAS服务支持ftp,samba,nfs功能,可以为用户提供可靠的文件级数据整合,提供存储资源;SAN服务可以为用户提供FC SAN和IP-SAN服务,FC-SAN针对对数据带宽有较高要求的用户,为用户提供快速、高效的块级应用,提高了存储的性能,IP-SAN技术简单、低成本,基于标准的TCP/IP协议,在以太网上为用户提供块级的应用。
图2 支持多协议平台
1.4 自动精简配置
随着企业规模的发展。需要的数据空间会随着业务的扩展而增加,然而一个企业开始规模还是比较小的,不需要太多的存储空间,如果开始就要购置5年后的存储空间,既浪费了财力和初始构建的成本,也会造成大量空间的浪费和电力的消耗,自动精简配置可以解决这些问题,比如在部署了自动精简配置之后,存储系统可以为用户提供2TB的逻辑单元,而实际上只有1TB的物理空间可被分配,如图3所示:
图3 自动精简配置
自动精简配置能够将存储空间利用率从60%提升到80%,推迟用户磁盘扩容的时间、减少磁盘购买数量,减少环境对存储的压力,降低总体实现成本,从而降低系统的整体能耗、冷却成本、以及二氧化碳排放量,符合绿色存储的要求。
LiveStor提供El志、邮件和SNMP Trap 3种告警机制,当物理空间存储池的利用率达到一定阈值时就会向管理员发送告警,当实际空间已经没有空余,在新磁盘被添加之前,卷访问将被锁定,当存储池告警之后。存储管理员需跟据实际存储容量状况添加新的磁盘进行扩容以确保系统的连续性。
1.5 重复数据删除
随着存储技术的不断发展,重复数据删除成了主存储系统中高效存储的一个重要技术点,重复数据删除可以降低存储系统的采购成本、节约电力、减少散热。重复数据删除技术主要有3种类型:文件级重复数据删除、块级重复数据删除、字节级重复数据删除。
LiveStor采用基于散列的块级重复数据删除技术,它把需要存储的数据分成固定的数据块,然后为每个数据块生成一个独特的指纹,如果新数据块的指纹与设备散列索引中的某个散列匹配,仅存人指针,并指向存储相同数据块的原始位置,如果数据块是唯一的就被写入磁盘,其指纹也存入索引中。这种方法用小容量的指针替代重复的数据块,而不是将重复数据块再次写入存储,节省了磁盘存储空间,实现流程如图4所示:
图4 重复数据删除流程图
块级重复数据删除采用定长块的切分方法,每个数据块的长度都是相同的。文件在切分时,如果切分最后剩余部分不足一个数据块的长度,那么就向该数据块填充空数据,如图5所示:
图5 定长切分
图5中Padding表示不足一个数据块,重删的数据变换效果如图6所示:
图6 重复数据删除前后数据变化
LiveStor系统在Web界面上显示去重率,去重率是用来定义重复数据删除中的优化率,等于原数据大小除以去重之后的数据大小。根据实际应用统计,一般情况下有效存储容量是磁盘总容量的10~20倍,因此,重复数据删除技术可以有效节省存储空间。
2.LiveStor实现高效存储分析
2.1 LiveStor简介
LiveStor是新一代高效存储系统,它通过高速光纤网络连接后端存储阵列,支持存储虚拟化、支持SAN存储网络架构和NAS的多协议存储、支持自动精简配置、支持重复数据删除功能,具有高性能、高可用性、易用、易管理的特点。LiveStor能提高存储性能,减少环境的压力,降低总体实现成本,降低能耗和降低二氧化碳排放量,符合绿色存储的要求。
LiveStor不仅提供高效存储,还能基于快照技术为用户提供本地逻辑分区的持续数据保护,结合本地CDP提供远程复制和恢复功能,满足生产运行的连续性和灾难恢复的需求,最大程度地保护用户数据安全。
2.2 自动精简的属性设置
LiveStor建立的NAS分区可以创建大于物理存储的逻辑卷,各个逻辑卷共享整个存储池的大小,LiveStor使用set quota设置逻辑卷的大小。
LiveStor建立的SAN分区可以创建大于物理存储大小的逻辑卷,建立的分区大小是自己设定的,独立于存储池大小之外,但可用存储池的大小还是原来存储池的大小,只是在分区显示时存储池的利用率是假象还是真实的情况,使用zfs create—S—b128K—V设置逻辑卷的大小。映射出来的磁盘就是自动精简配置设置的大小,但可用的容量还是原来总存储池的大小,当LiveStor管理员通过设置的存储池告警获得警告信息,就要按需扩容后端存储,添加硬盘,为用户提供持续可用的高效存储。
2.3 重删技术的属性设置
LiveStor的重删功能是基于块级的重复数据删除,LiveStor默认使用的是SHA一256,不作校验。它利用SHA一256哈希函数提供数据块级重复数据删除功能,开启重复数据删除的LiveStor需要较强的处理能力(比如多核处理器),因此提高处理器能力和内存就可以提高重复数据删除的速度。
LiveStor对重复数据删除技术设置了3个属性值,分别为on,off,verify。当属性设置为on时,这种方法是在重删技术中速度最快的,因为它是按块的哈希值进行对比重删的,但是这种重删存在2*256的可能性将不同的数据作为相同的哈希值来删除。为了确保散列重复数据删除的安全性,可以将重删功能的属性值设为verify,让存储数据进行全部字节对比。针对重复数据删除,也可以使用改进的、简单的散列算法来减少所需的处理能力,并将它与验证功能结合在一起以提高重复数据删除的整体速度。
LiveStor重复数据删除功能可根据文件系统的大小进行调整块的大小,LiveStor设置块大小为128 KB,块的大小可以自动配置,LiveStor的重删技术可以有选择地设置,可以针对包含重复多的数据,在存储时就进行重复数据删除工作,节约硬盘的使用,对重复数据少的数据不进行重删,提高数据的读写速度。
3.基于块级重删的高效存储的性能分析
实验是将后端存储映射给LiveStor存储系统,在其上建立存储池和逻辑分区,将逻辑分区通过光纤再映射给服务器作为客户端,利用Iometer(2006)对具有存储虚拟化、自动精简配置和重删的LiveStor分区进行性能测试,添加standard。icf脚本,进行裸盘测试,对运行Iometer(2006)并保存测试数据进行分析,测试结果如图7~10所示(其中off为逻辑分区和存储池的重删功能关闭的状态,on是指逻辑分区和存储池采用sha一256校验算法开启重删功能,verify是指逻辑分区和存储池采用按字节比对的重删功能)。
图7 3种情况下顺序读的性能
图8 3种情况下顺序写的性能图
图9 3种情况下随机读的性能
图10 3种情况下随机写的性能
通过以上对LiveStor存储系统在随机读、随机写、顺序读以及顺序写的性能比较可以看出,在集成了自动精简配置和重复数据删除技术的逻辑卷的带宽还是比较稳定的,最高的带宽达到了388.721 469 MBps,具有较高的性能保证。
4.总结
本文基于LiveStor系统对大数据量存储常用策略进行了分析研究,满足了当今IT发展的需求。大数据的高效存储和管理不仅为用户提供更高质量的服务,而且还可以降低用户成本,实现高效低碳的环保型绿色IT,也为云计算和云存储的存储方案打下了坚实的基础。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:一种高效存储解决方案的分析与研究