1 引言
近年来,随着网络和通信技术的发展,Internet已成为人们日常生活不可缺少的信息交流平台,进而促进网络数字内容业的快速发展,也为数字内容产业带来前所未有的商机,据统计,截止2011年4月,亚马逊电子书销量首次超过了印刷书销量,百度库内文件接近2000万份,并继续保持高速增长,而有兰登书屋等六大出版商人驻ihook,ipad销量已超2000万台,但当前大多数数字内容提供商仍然采用传统的C/S模式构建自己的数字内容服务系统,为众多终端用户提供内容服务,这种模式随着Internet规模和用户人数的增加会存在网络热点的问题,为此,一些数字内容提供商试图采用新的技术来解决上述问题,如亚马逊构建了自己的云服务系统(弹性计算云Elastic Compute Cloud,EC2),现实结果显示,该系统适合亚马逊的数字内容服务特点,极大促进了亚马逊业务发展,云计算机的核心思想是通过虚拟技术将是将大量用网络连接的计算资源统一管理和调度,构成一个计算资源池向用户按需服务,从而为终端用户提供灵活高效的服务,显然,上述优势的取得是通过在现有网络上部署服务节点来实现的,服务节点位置选择的合适与否,直接影响到云服务系统的服务质量和使用效率。
服务节点部署是传统网络和CDN网络关注的热点和难点,产生了很多有意义的成果,但计算机技术、网络技术的飞速发展以及云计算技术的特点,使得传统服务节点部署理论在解决云计算系统服务节点部署时需要解决众多挑战,包括网络信息缺乏和已有部署理论的局限性,由于测量技术和测量设备的限制,设计者在复杂网络环境下选择部署点时会面临不同程度的信息缺失,甚至会出现无法获取建模需要的先验知识的情况,同时,传统基于图论的服务节点选择方案存在NP难喝和搜索效率随样本数增加快速下降的缺陷,此外,在现实应用中,设计者除了需要解决上述理论局限性外,还要考虑简单实用等因素,针对上述问题及实际服务器部署的特点,本文提出一种基于网络坐标系统的服务器部署方法,与传统服务器部署相比,该方法可以较小的代价获得较完整的互联网时延信息,解决了传统方法中无法获得完整网络信息的问题;同时该方法采用聚类方法,避免了传统服务器部署存在的NP-hard和搜索效率低下的问题。
2 基于网络坐标服务器部署方案
图1为基于网络坐标服务器部署方法整体框图,可以看出,构建基于网络坐标的服务器部署方案包括网络信息获取、部署方案形成和部署方案验证等三部分,其中,网络信息获取主要解决服务器部署中信息获取不完整的问题,其核心思想是通过ping测量技术,构建网络坐标,从而以较少的测量成本获取较为完整的网络信息,包括网络坐标基准点的选择和网络坐标的形成两部分,本文采用中央控制网络坐标的构成方式;部署方案形成部分在已构建好的网络坐标的基础上实现服务器部署方案,包括服务器选择和服务资源分配等两部分,前者在构建好的网络坐标基础上实现服务器选址工作,即根据得到的网络坐标,将样本点进行聚类,得到若干个逻辑节点,然后将获得的逻辑节点转换成现实中的IP值,并进一步获得服务器部署的物理位置,在这里,文章对传统分层聚类方法进行改进,使之在考虑测量样本分布密度的同时,也考虑了服务器部署成本和服务性能等因素,能准确反映真实的网络环境,并以此来获得服务器部署方案,在部署方案验证部分,文章通过将传统服务器部署方案与基于网络坐标的服务器部署方案的服务性能进行对比,以验证基于网络坐标的服务器部署方法的有效性。
图1基于网络坐标服务器部署方法框图
3 基于网络坐标的服务器部署的关键技术
由图1可知,基于网络坐标服务器部署方案的核心技术包括网络基准点的选择和分层聚类算法两种。
3.1基准点选择
在中央控制式网络坐标体系中,网络坐标的构建首先通过部署网络探测点,通过网络探测点获得网络节点的延迟信息,并选择网络基准点,构建网络坐标系,然后,通过基准点的测量来获取客户端到网络基准点的延迟,根据网络基准点的坐标计算出该客户端在网络坐标系统中的坐标值,构建Internet的网络结构图,在上述过程中,网络基准点具有三重作用:构建网络坐标系的三要素(维度、坐标原点和刻度)、网络延迟测量的主机和网络坐标定位基础,因此,基准点的选择对网络坐标的精度有重要的影响。
张辉,P.Francis和M. Rabinovich等人对网络坐标系基准点做了研究,其中,张辉等人通过在已部署的探测节点中选择坐标基准点,并提出了3条准则:
1)最大分离度准则;
2)N-Median准则;
3)N-cluster-Median.
在此基础上,通过实验证明了与三角坐标和IDMap网络坐标系相比,GNP即使采用随机选择的网络基准点,也具有更好的稳定性,且当基准点为6,坐标维度为5时,网络坐标具有较好的准确性,在文献〔7〕中,P. Francis等人详细研究了IDMap系中探测点的选址问题,并将该问题模型化为已知网络拓扑情况下的图论问题,M. Rabinovich等人则通过对统计数据的分析,证实了在网络坐标系中,选择距离较远的3个节点作为网络基准点,对于大多数情况下,能够获取满意的网络坐标精度。
在服务器部署方案设计过程中,由于服务器部署方案中的节点位置选择和资源部署都属于静态过程,而且在较长时间不会发生改变,因此,用于服务器部署应用的网络坐标系统的基准点选择需要定义一系列新的准则,因此,基准点选择可采用如下3种准则:
1)被选择的基准点间的网络距离应该足够大;
2)基准点的个数应该比网络坐标维度数大;
3)基准点应尽量选择靠近骨干网络POP处.
在一个网络坐标空间里,如果用N表示节点集,i,j表示空间中两点,xi, xj分别表示点i和点j在坐标系统中的坐标向量,d(i,j)表示点i和点J间在坐标中的距离函数,则有
显然,选择的基准点间的网络距离应该足够大时,才能保证测量数据的精度。
一般来说,使用基准点构建网络坐标系统时,基准点和网络坐标维度存在如下关系:N>d+1,其中,N表示基准点个数,d表示网络坐标系统的维度数。
此外,在基于网络的服务器部署方法中,构建网络坐标的核心任务是以尽量小的测量成本来获取完整的网络结构信息,便于实现服务器部署的选址和资源分配工作,因此,基准点的部署应该选择能够直接获取较多网络信息的位置,在Internet中,PoP( point-of-presence)位于不同ISP相互连接的位置,能够直接获取更多和更准确的网络信息,是部署网络基准点合适的地方。
3. 2 聚类算法
在已构建的网络坐标基础上,本文采用聚类方法来实现服务器部署.聚类是一门有着广泛应用的技术,其目的是将一个数据集划分为不相连的有相同属性的簇,在许多方面都有着重要的应用,包括K一均值算法(k-Means)和分层聚类算法(Hierarchical Clustering),其中,k-means算法的算法复杂度O( ktn)依赖于初始聚类质心选择,而分层聚类算法具有固定算法复杂度O(n2),与商业系统简单稳定的思想较为稳合,故本文采用采用分层聚类算法,但O(n2)的算法复杂度在样本数量巨大时显然不适用,为此,文章利用网络坐标系统中样本具有空间属性这一特点,先对样本进行初聚类,以减少样本数,从而达到降低系统运算复杂度,算法流程如下所示:
1)将所有样本所在的空间H均匀的划分为perk个区域,计算每个区域的样本数P和质心点的坐标,即为P个初始样本点;
2)设初始时共有P个类,每个类由一个对象类成,令顺序号m=0,L(m)=0;
3)在D中寻找最小距离d[(r),(s)]=mind[(i).,(J)];
4)将两个类(r)和(s)合并成一个新类(r,s);另m=m+1,L(m)=d[(r),(s)];
5)更新距离矩阵D:将表示类(r)和类(s)的行列删除,同时加入表示新类(r,s)的行列;同时定义新类(r, s)与各旧类(k)的距离为d[(k),(r,s)〕=min d[(k),(r)],d[(k),(s)];
6)反复步骤2-4,直到所有对象合并成k个类,并找出这k个类对应的质心位置坐标;
7)根据服务器部署成本和用户体验,每个区域中选择合适的服务节点;
8)分配服务器服务的用户和需要的资源;
9)将逻辑节点按照服务用户在物理位置的分布,进行重新选择,并最终得到服务器部署方案
上述算法同时考虑到用户在网络的密度分布、服务器部署成本和用户体验(服务延迟)等3种因素,在该算法中,通过质心选择,实现了现实中服务器部署需要考虑的用户分布密度,保证网络流量的本地化,基于聚类的结果,算法在服务器选择过程中,考虑了传统服务器部署设计中的两个主要因素:用户体验和部署成本,如当系统需要尽量保证用户服务质量时,可选择离质心最近的网络节点来部署服务器;当系统设计者追求部署成本最低时,可以选择部署成本最低但离用户较近的网络节点来部署服务器,由于网络坐标仅考虑了不同用户在网络中的逻辑距离(延迟),因此,对网络坐标中的用户采用聚类的方法来构建的服务器部署属于逻辑部署,而现实中的服务器部署则需要在具体物理位置放置服务器,这一过程则通过步骤9来完成。
4 部署性能验证
为了验证基于网络坐标服务器部署方案的可靠性和有效性,文章利用实际测量数据来网络坐标部署方案与传统服务器部署方案的相关性能进行了对比,在这里,针对不同服务器部署方法,文章用Ping测量数据来构建网络坐标,将TraceRoute测量数据用于传统服务器部署方法,其中,基于Ping的测量过程利用了分布在全国13个地方的13台服务器,服务器每两小时自动运行一次,对130万个有效IP进行一次Ping测量,并记录对应的测量数据测量时间持续了一周,Paris-traceroute测量程序则运行在中国22个省部署的30个服务器节中的228台服务器上,然后通过这些服务器对130万个有效IP做了为期3个月的TraceRoute的测量。
4.1坐标基准点选择
图2是几种不同网络基准点在同一时刻的测量数据下构建网络坐标的性能对比图,该图采用网络坐标构建性能采用文献4所采用的相对误差,其中,实线是依照文献的方法选择出的5个网络基准点,然后构建的4维网络坐标;单划线表示依本文提出的网络坐标基准点选择原则选择出的网络坐标基准点构建的4维网络坐标;而双划线则是根据文献[4]网络坐标选择原则选择出9个点,并构建的8维网络坐标。
图2几种网络基准点的网络坐标误差累计分布图
从图2可以看出,9(8)网络坐标系统具有最好的准确性,而依据本文提出的网络坐标基准点构建方式构建的网络坐标系统虽然在准确性上要低于9(8)坐标,但却优于利用同等网络基准点数量构建的网络坐标系统。
图3和下页图4显示了基于网络坐标服务器部署方案的相关性能曲线,其中图3展示了服务性能随服务器部署数量变化趋势,图4显示了部署成本随服务器部署数量变化曲线,由图3、图4看出:
图3聚类数量与响应延迟间的关系曲线
图4聚类数量与部署成本间的关系曲线
1)部署成本随聚类数增加而增加,响应延迟则随聚类数量增加而减少,图3和图4都表明,无论在凌晨4时还是在晚上10点,服务性能曲线都随聚类数量增加而减少,部署成本则随聚类数量增加而增加;
2)响应延迟受网络环境影响较大,而部署成本则受网络环境变化不明显,图3表明,在任意时刻,晚上22时的响应延时都位于凌晨4时的响应延时之上,而图4的两天曲线则基本上重合,很难区分其优劣。
图5是在基于网络坐标的服务器部署方案下,服务性能与部署成本间的变化关系,显然,服务性能随部署成本增加而增加,且晚上22时的曲线变化更强烈因此,为了确保系统的服务性能,需要提高部署成本,这与现实生活中直观印象较为稳合,同时,由图5还可看出,虽然响应延迟随部署成本增加而减少,但二者不是线性关系,在部署成本较低时,响应延迟随部署成本增加急剧下降,而当部署成本增加到一定值时,响应延迟基本趋于稳定因此,可以找出全局的最佳性价比部署方案,具体方法为:对部署成本一响应延迟曲线求导数,并取绝对值,找出最大的绝对值导数值所在的点,即为最佳部署方案。
图5部署成本与响应延迟曲线
4. 2服务器部署性能
为了验证基于网络坐标服务器部署方案的有效性,文章比较了基于网络坐标部署方案的性能和传统的服务器部署方案的性能,其中,传统服务器部署模型式(2)所示:
由于上述服务器部署问题是一个NP-Hard问题,为了确保理论结果的准确性,文章分别在Maflab中采用经典的linear programming (LP)算法和直接使用lingo自带的优化算法等两种算法来获取结果,如表1所示。
表1的理论分析中,为了获取完整准确的网络信息,节点间网络延迟是通过Paris-uaceroute测量方法获取的,对应区域的用户分布则采用CNNIC的2009年年度报告数据,对比表1传统理论模型的部署结果可知:无论是在部署点的选择,还是部署成本和服务性能的估计中,上述两种算法都相同,因此,有理由认为基于传统部署理论模型获得的部署方案具有较好的准确性。
表1基于网络坐标的部署方案和传统部署方案性能对比表
对比表1中基于网络坐标的部署方案和基于传统理论的部署方案,可以得出如下结论:
1)测量成本低:传统服务器部署方案采用了228台服务器,进行了为期1个月的Paris-traceroute测量,而基于网络坐标的服务器部署方案只利用了5台服务器进行了为期一周的ping测量,可以看出,与传统服务器部署方法相比,基于网络坐标的服务器部署方法投人成本更少,可以通过更少的网络测量数据就能获取准确的网络信息。
2)部署方案展现直观:基于网络坐标的服务器部署方法可以通过图的形式直观表示出部署成本、服务性能(网络延迟)和综合部署成本随最优部署方法的变化曲线,同时实现传统服务器部署理论中的facility location和k-median两种模型的优点。
3)取得优化的部署部署性能:表1分别给出基于网络坐标的服务器部署在网络条件最好和最差时刻的部署方案(包括部署成本、服务性能以及综合性能等),理论分析给出相同备选节点情况下的服务器部署方案,可以看出,理论分析的部署服务性能要略优于网络最差情况下的基于网络坐标部署方案但劣于网络最佳时刻的基于网络坐标部署方案(基于网络坐标服务方案选取的服务节点数为12,对应的最小部署成本值为1,最大部署成本为1.6,最小响应延迟为42ms最大响应延迟为60ms理传统部署方案则选择13个部署点,部署成本为1.65,响应延时为55. 8ms)。
4)能在整个网络中实现节点选择:基于网络坐标确定了12个物理位置部署服务器,而基于传统理论的部署方案则选择了13个物理位置部署服务器,共同选择的节点数为6,结合规律3可以看出,基于网络坐标部署方案能以较少的节点部署数量获得优化性能,即能实现服务器部署的全局优化。
这一现象是由传统理论分析中数据不完整造成的,在传统部署理论分析过程中,为了获得较完整的网络信息,利用30个不同节点的228台测试服务器,进行为期3个月的数据测量,而部署理论构建模型的求解时也以上述30个节点为备选服务节点,显然,这些备选节点不能覆盖国内所有区域,而基于网络坐标虽然仅仅利用5个节点作为网络基准点,但通过网络坐标的计算,可以获得全国范围的逻辑网络结构信息图,对应的部署方案可以选择出任意物理位置,原则上可以获得全局的最优,如表1中基于网络坐标的部署方案包含三个传统部署理论分析中备选节点之外的节点(陕西、云南和新疆),而在传统部署理论分析过程中,只能从备选的22个节点选择出最优的部署方案,从而改变可能存在的最优部署方案。
5 结论
服务器部署问题一直都是一个热点问题,但传统服务器部署存在网络信息获取不完整和搜索算法的效率随样本数量增加而急剧下降的缺陷,为了解决网络信息获取不完整的问题,本文引入网络坐标的测量方法,利用网络坐标方法来以少量测量成本获得更完整的网络信息,同时,针对网络坐标系统的特性以及商用系统的特点,引入分层聚类算法并加以改进,使之更适合服务器部署实验结果表明,与传统的服务器部署方案相比,基于网络坐标的服务器部署方案除了能在网络全局范围内获得优化之外,还具有测量成本低,且部署方案直观等特点。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:一种新的服务器部署及其关键技术