2.3 数据复制
为了保证较低的RPO和RTO目标,数据复制技术常应用于各种灾备系统。数据复制是将原卷或原文件直接复制到目标卷或目标文件系统中,分别称为卷复制和文件复制。由于数据复制的目标卷(目标文件)和源卷(源文件)的数据格式一致,可以消除备份系统中数据格式的转换时间。数据复制又分为同步复制和异步复制。
2.3.1 同步复制
同步复制表示,在数据复制系统的源端,主机发出的I/O请求在写入本地磁盘的同时,通过专用的数据网络或通道将数据从本地磁盘系统同步地复制到异地磁盘系统。当异地系统完成该I/O操作后,通知本地系统I/O完成,本地的主机系统才能发出第二个I/O请求。利用同步复制方式建立异地数据灾备,可以保证异地系统和本地系统数据的完全一致性。但同步复制方式对性能的要求非常高。由于每一次本地I/O必须要等到数据成功地写到异地系统,才能进行下一个I/O操作,因此同步复制的性能受网络带宽、网络的距离、中间设备及协议转换等多方面的影响。
2.3.2 异步复制
异步复制是指在数据复制系统的源端,主机发出的/O请求在写入本地磁盘的同时,向本地磁盘系统上预留的空间发出相同的写请求(决定于不同的策略),然后通知本地系统I/O完成。此时,本地的主机系统可以发出第下一个I/O请求。在设定的复制规则满足后(基于时间、基于变化量等),系统的复制功能模块再将数据通过专用的数据网络或通道复制到异地的存储系统中。
2.4 灾备分析
与同步复制相比,异步复制对网络带宽和距离的要求低很多,只要在某个时间段内能将数据全部复制到异地即可,同时异步复制对应用系统的性能影响也很小。但是,当本地系统发生灾难时,异地系统上的数据可能会短暂缺失(在复制的时间间隔内数据未完整地从源端发送到目的端)。因此,当源端灾难发生时,同步复制的RPO接近于0,异步复制的RPO则取决于复制时间间隔。同时,在业务恢复时间上,相对于传统的备份系统而言,由于不存在数据格式的转换,可以在较短的时间内恢复业务系统,从而具有较好的RTO。对于1000亿元人民币以上的银行,银监会要求建立200km以上的备份系统。因此只能使用远程复制模式。同城复制可以使用光纤,但是远程复制由于成本方面的因素,全光纤传输还很遥远。因此,不可能采用同步复制。所以,远程异步复制模式会越来越多。
3 云存储与云灾备的短板
当用户向云存储系统中进行数据备份时,网络对系统性能的影响起到了至关重要的作用。当云存储服务提供商在进行后台的云灾备时,远程的云备份和云复制也依赖于网络的性能。
图4 英国剑桥大学到中国北京的网络带宽
3.1 网络短板
按照Nielsen法则,终端用户的网络带宽以每年50%的速度增长。然而,和局域网形成鲜明对照的是,广域网的性能不尽人意。例如,一条T1线路的带宽只相当于千兆网的千分之一,许多帧中继线路的带宽只有256kb/s。Garfinkel[19]通过测量发现从美国伯克利大学到西雅图的平均网络写带宽大约是5~18Mb/s。通过使用网络测试工具iperf,采用256个数据流测量,数据表明在格林尼治标准时间下午7点到10点,从英国剑桥大学到中国北京的平均网络带宽大约是14Mb/s,如图4所示[20]。
基于以上的测试数据,如果假设网络带宽为20Mb/s,Armbrust[21]等人作了简单的计算,计算结果表明从美国伯克利大学传输10TB数据到西雅图需要45d的时间(10×1012B/(20×106b/s)=4000000s=45d)。如果通过亚马逊来进行该数据传输,需要另外向亚马逊支付1000美元的网络传输费用。另外,由于广域网物理距离的原因,不可避免的时延也会对带宽造成影响。例如,一个T3链路(44.736Mb/s),当时延超过40ms时,其带宽很快就下降到与T1链路(1.544Mb/s)相当。
如果是进行云备份,时间上的开销相对还可以忍受,因为用户在本地还有一个数据拷贝可供使用。但如果是从云存储系统中恢复数据,这是无法让人接受的,特别是对于那些需要提供24×7×365业务连续性的企业级用户。为了缓解这个问题,对于云存储系统中大数据量的恢复,云存储提供商Mozy[22]和CrashPlan[23]提供了一个不得已的选择,在用户许可的情况下,将数据转存在DVD或者硬盘上,然后通过特快专递的形式交付给用户。
3.2 网络优化
ACK:确认
图5 针对广域网数据传输的协议优化
针对广域网数据传输的协议优化如图5所示。为了优化广域网环境下大规模数据传输的性能,我们曾将数据在套接字层在发送端进行分割,然后利用多个套接字流进行并行传输,最后在接收端进行数据重组(如图5(c)所示)。理论上讲,对传输控制协议(TCP)管道而言,其最大的吞吐量为带宽延迟乘积,即容量=带宽×环回时间。在传输窗口一定的情况下(图5中红色的方形区表示传输窗口,缺省为64kB),按通常100Mb/s的网络带宽来计算,传统的单套接字流显然无法填满TCP管道(如图5(a)所示),使得其效率极低。通过加大传输窗口可以在一定程度上提高TCP管道的利用率(如图5(b)所示),但在丢包的情况下,会导致每次重传的数据增加。因此,通过多个套接字流来并行传输的效果较好。另外,由于采用了多流,不同的数据流在必要的情况下可以走不同的路由,也能够进一步优化广域网的性能。
正如前面提到的,云基础设施必须是地理上分布的,因为云的成功在很大程度上决定于其规模效应。虽然计算和存储相对便宜,然而,由于广域网环境下的低带宽、高延迟和较高的丢包率,使得广域网成为云环境下那块最短的木板。因此,在地理上分布的云环境下进行大规模的数据传输是非常昂贵的。图灵奖获得者JimGray在2006年就指出在广域网上处理大数据集时,应该将程序传给数据,而不是将数据传给程序。另外,也可以通过数据压缩、数据去重等方法来减少网域网上的数据传输流量,降低对网络带宽的需求。还可以采用动态缓存、IP流量管理以及服务质量(QoS)控制等方法来降低广域网的延迟。但是,这些方法只能在一定程度上来缓解网络“瓶颈”问题,不能从根本上解决问题。因此,在设计云存储和云灾备系统时,必须要考虑广域网的带宽、延迟和包丢失率所带来的影响。
4 云存储实例分析
图6 2.12 GB数据的备份时间
图7 2.12 GB数据的恢复时间
对于企业用户而言,现有的云存储更多的是一种在线远程备份系统。Hu等人针对Mozy、Carbonite、Dropbox、Crashplan4种云存储系统进行了测试、比较和分析。当将8GB的文件备份到云存储系统中时,有的系统的备份时间超过了30h,还有的系统经过4d的时间还未备份完成。当他们将数据集减小到2GB左右时,云备份系统才回复到基本正常的工作状态。
图6表示Hu等人在Mozy、Carbonite、Dropbox、Crashplan4个不同的云存储系统下备份2.12GB数据时的远程备份时间。其中横坐标从左到右的4种情况分别表示单个2.12GB的大普通文件、单个2.12GB的大稀疏文件、很多小的普通文件组成2.12GB的数据集、很多小的稀疏文件组成2.12GB的数据集。稀疏文件表示该文件不包含用户数据,也没有分配用来存储用户数据的磁盘空间。当数据被写入稀疏文件时,文件系统(例如微软的NTFS)才逐渐地为其分配磁盘空间。可以看到对于正常2.12GB的文件数据4个系统的备份时间都超过了5h。
图7表示相应的恢复时间。恢复比备份要相对快很多,这主要是由于网络的上行链路和下行链路带宽的不对称造成的。通过大量的测试分析,Hu等人得出了一下结论:
(1)云存储系统必须对于网络失效具有回弹性,同时能够实现大文件的增量备份。
(2)云存储提供商在进行大数据的网络传输时还要进行加密、压缩等预处理以避免网络延迟。
(3)云存储用户需要手动检测重要的文件是否都已经进行了备份。
(4)云存储用户应该将云存储系统作为本地备份系统的一种补充,而不能将其当成主要的备份策略。
本文认为,现有的云存储应对普通用户小数据的备份与恢复应该问题不大,但是企业级用户大数据量的存储与恢复则要慎重考虑。
5 结束语
云存储面向个人的应用主要有网盘、在线文档编辑、工作流及日程安排。面向企业的应用主要有企业空间的租赁服务,企业级数据备份和归档、视频监控系统等。云灾备则主要用于保证云存储服务商后台系统的可靠性和可用性。对两者而言,海量数据的高度聚集会对系统带来一系列的挑战。例如,如何实现海量存储系统从传统的纵向扩展向横向扩展转化?如何实现系统的性能和规模线性可扩展?如何处理海量存储系统的高度聚集带来的能耗和冷却?等问题都是我们在进行云存储和云灾备系统设计时必须要考虑的重要因素。当然,云存储最终能否成功,还受到其他很多因素的影响,如大量的数据存储在云端如何保证数据的安全和用户隐私等。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:云存储与云灾备的原理与短板分析(下)
本文网址:http://www.toberp.com/html/consultation/1083978020.html