1 前言
自从计算机和互联网出现以后,人类迈入信息化时代,在信息社会中,计算机系统逐步嵌入到生活和生产的每一个角落,大到探索深空的宇宙飞船、小到家庭中的电烤箱,都装备有计算机系统和计算机系统芯片(SoC,System on Chip),尤其是伴随着近年兴起的云计算概念,CPU及计算能力已俨然变成像生活中的水和空气一样普遍存在的资源。
过去,计算机系统、数据中心只是为科研、军事等部门配备的专用设施,现在数据中心已经成为普通大众生活需求的一部分,随着数据中心数量和规模急剧膨胀,能源消耗问题越来越突出,巨大的耗电量成为数据中心进一步发展的“拦路虎”。
当个人或家庭使用一、两台计算机时,使用者也许并未将这100-200瓦的功耗当作是什么大的问题.但是,当数据中心集中了成千上万台计算机服务器,24小时、365天运行,其耗电量就是一个巨大的数字.据测算,一台服务器平均功耗为200瓦时,一个集中十万台服务器的数据中心年耗电达到1.752亿千瓦时(度电),再加上与之相当的强制降温所耗电量,年耗电总量达到3.893亿千瓦时,按国家规定的吨钢可比能耗进行折算,每生产10万吨钢铁的用电量为1.9亿千瓦时,就是说,运行十万台服务器的用电量远远超过生产10万吨钢铁的能耗,数据中心因而“荣登”高能耗单位、节能减排重点名单。
预测2011年美国的数据中心消耗了1000亿度电,占全美总耗电量的2.5%,另据Gartner统计的数据,2011年我国数据中心总耗电量达700亿千瓦时,已经占到全社会用电量的1.5%,相当于天津市全年的总用电量,国内超大规模的电信级数据中心已经超过亿元的电缆门槛,常年巨额的电费超过了一次性的基础设施投入。
破解数据中心巨大耗电量难题,是计算技术、甚至信息社会进一步发展的重大问题,在工业和信息化部以及国家发改委的指导下,由云计算发展与政策论坛牵头编制的《数据中心能效测评指南》,定义了数据中心电能利用效率(PUE)、局部PUE(pPUE)、制冷/供电负载系数(CLF/PLF)和可再生能源利用率(RER)等四个能效关键指标[2],希望以此引导绿色数据中心的建设.
本文从CPU、服务器、配电系统三个方面入手,对数据中心的耗电根源进行了条分缕析,提出了四项技术创新组合的整体解决方案,以此来彻底解决数据中心高能耗难题,在此基础上研发云计算专用芯片、微服务器、配电系统全套关键技术,建立了中国第一个以太阳能为主供电源、微服务器集群架构、全高压直流配电、异种电源双回路不间断服务器专用电源模块为整体解决方案的绿色数据中心,四项技术环环相扣,完美契合,节能效果和采用绿色能源比例等指标达到国际先进水平。
2 技术组合
数据中心耗电量集中在IT设备和降温空调用电,IT设备主要是服务器机群,两者相加的耗电量占数据中心总耗电量的75%以上,服务器机群是数据中心的核心业务资源或服务对象,服务器机群耗电也是数据中心耗电量的根源,服务器在消耗巨大电能产生强大的计算能力的同时,电能最终以热量形式散发出来,使得强制降温成为必然,带出了数量级相同的空调降温用电,两者叠加,再加上机房其他设备电能损耗,构成了数据中心的总耗电量,PUE(Power Usage Effectiveness)值是国际通行的衡量数据中心用电效果的指标,PUE值是数据中心总耗电量与IT设备耗量电量的比值,PUE值越小,表明用电效果越高,越集中用到IT设备上,国家发改委等组织的“云计算示范工程”也要求示范工程建设的数据中心PUE要达到1.5以下,而当下绝大多数的数据中心PUE值在1.7至2.0间。
业界提出、尝试过一些减少数据中心耗电量的解决方案,比如空调下送风降温方案、集装箱密封降温的高密度数据中心方案、甚至还有提议把数据中心建在南极和北极让冰山来自然、无电降温等等,他们的目标都是减少降温用电,提高PUE值。
但PUE值只是反映IT设备用电量的比值,并没有指出直接降低IT设备本身用电量的问题,而降低服务器机群的用电量,才是降低降温用电量、降低机房总体用电量的根本之策。
同时,也只有在降低服务器机群用电量、降低数据中心用电总量的前提下,才有可能把可再生能源的应用比例提高到一个有意义的水平,因为再生能源,如风能、太阳能的单位面积发电量有限,假若以常规服务器现有的用电量来全部改用采用再生能源供电,发电面积与服务器安装所占面积的比例太大,将是一个不切实际的空想,只有降低服务器机群用电量,使得再生能源发电面积与服务器安装所占面积下降到一个合适的比例,采用再生能源才会达到经济上、工程实施上的可行性,而不只是把再生能源作为一个点缀。
本文的技术方案组合是:
1)采用微服务器集群降低服务器机群的用电量绝对值;2)采用机房楼顶或邻近空地的太阳能发电作为数据中心主供电源;3)高压直流供配电系统减少供配电系统中多次交直流变换造成损耗;4)针对性设计的服务器电源模块,使上述三个措施能充分发挥作用。
2.1 微服务器技术
服务器主板的功耗集中在CPU芯片,降低CPU芯片功耗,就可以有效降低服务器耗电量,进而减少降温空调的耗电、减少供配电系统中的成比例电损,达到大幅度降低数据中心的整体用电量的效果,CPU芯片的降耗,是数据中心整体降耗的关键,芯片级每降低IW的功耗,由此而带来的电源转换、配电系统、UPS、制冷系统和变压器等一系列设备的功耗降低,将会达到2.68-2.84W.这都说明了芯片级的节能降耗是实现绿色节能的首要措施。
CPU芯片是服务器、数据中心计算能力、数据处理能力的动力来源,在以往,人们在设计CPU芯片时,只是单一追求CPU芯片运算速度的提高,提高CPU主频是提高CPU运算速度的绝对性指标,而现在需要均衡考虑速度性能和功耗,追求单位功耗下计算能力的提高,而不是单一的计算能力提高,这样就出现了两条技术路线的比较。
其一是提高CPU主频以提高服务器计算能力.为服务器安装更高主频、更高复杂度的CPU,以提高服务器的计算能力,这条路线会不断增加CPU指令执行的流水线级数、指令发射数、减少芯片中晶体管和金属走线宽度、增加CPU数据总线的宽度等等,这些复杂、极致的设计,就是为了提升CPU的工作时钟(主频),但它的结果是使CPU的功耗呈指数增加,它远远超过了CPU计算能力增加的速度,两者的增加极度不平衡。
其二是增加CPU数量以提高计算能力,为服务器安装数量更多的CPU、或使CPU芯片增加更多CPU内核,来提高服务器、服务器集群的计算能力,这条路线采用的CPU往往是较低复杂度、较低主频,例如流水线级数较少,CPU数据总线宽度较小等等,这些都显著降低了CPU电路的复杂度,使其运行在较低的主频以下,它的结果是使服务器或服务器集群的计算能力随CPU数量的增加而线性增加,功耗也是线性增加,两者的增加速度均衡发展。
下面对此作更深入的分析,为清晰起见,本文假设两种技术路线下CPU设计都为单核,同时忽略不同CPU架构下的指令执行效率。
1)提高CPU主频来提高计算能力
CPU芯片的计算能力与IPC(Instruction per Clock),即每时钟指令执行数、CPU 主频的关系可以用式
(1)表示:CP = IPC * f (1)
CP(Computing Performance)表示CPU 的计算能力,IPC表示一个时钟周期内所执行的指令数,IPC 越高,CPU电路越复杂,本文用Cs 来表示CPU 电路的规模复杂度,它可以直观地反映为CPU 电路的逻辑门单元电路数量规模,CPU 内部总线宽度增加也会增加CPU 电路的复杂度,f 是CPU 的工作时钟频,即常说的主频。
再来研究CPU 的功耗,参考CMOS 电路的能耗模型,CPU 功耗与CPU 工作电压V、CPU 电路规模复杂度Cs、CPU 的主频f 之间关系可以用式(2)表示:
Pcpu=Cs * V * V * f (2)
Pcpu是CPU的功耗,它正比于CPU电路的逻辑门数量,即正比于Cs,电路负载,Pcpu 正比于CPU 工作电压的二次方,正比于CPU 主频f,在同工艺、同设计下,要提高CPU 主频f 也需要同步提高V,使得式(2)可以再写为:
Pcpu=Cs * V(f) * V(f) * f (3)
Pcpu正比于f的三次方关系,其实,要提高CPU的主频f,设计复杂度提高,Cs也是f的因变量,综合式(1)和(3),得出CP、Pcpu和f关系示意图,如图1(1)。
2)增加CPU数量来提高计算能力
CPU集群计算能力的提高,是以增加群内CPU数量为主,CPU集群的计算能力表示为:
CPs = K * Mcpu * f (4)
CPs表示CPU集群的计算能力,K是一个调整系数,代表CPU集群的调度效率,Mcpu表示CPU的数量,K受Mcpu影响,而K和Mcpu与f间是独立变量,由式(4)可见,CPs与f间只是一次方关系,即线性关系。
考察CPU集群数量与功耗的关系,CPU群的功耗是单一CPU功耗与CPU数量的乘积,如式(5)示:
Pcluster=Pcpu* Mcpu (5)
Pcluster是CPU群的功耗,Pcpu是单一CPU的功耗,Pcluster与Mcpu成线性关系,综合式(4)和式(5)得到Pcluster、Pcpu和Mcpu关系示意图,如图1(2)所示。
图1 计算能力、功耗和主频、CPU 数量的关系
要达到同等计算能力,可以通过提高CPU主频的方法,也可以通过增加CPU数量的方法,通过上述分析可知,提高主频会使能耗呈指数增加,而增加CPU数量只使能耗呈线性增加,所以,如果能在满足应用的前提下,尽量采用增加CPU数量的办法,可以十分有效地降低服务器的能耗。
CPU追求高主频,会增加指令执行的流水线级(如Intel的CPU流水线已经超过了30级),会增加CPU电路设计的规模复杂度和需要驱动的负载数(式2中的Cs项),从而带来功耗的增加;CPU提高计算速度还会加宽内部总线宽度,这也会导致CPU电路的复杂度和功耗的增加;CPU电路为提高主频,采用的线宽已经接近物理极限,漏电流明显增加,也带来了电能损耗,这些都反映了继续沿用提高主频、增加总线宽度、减少芯片线宽,来提高计算能力的旧路已经不适合当展的发展要求,走到尽头。
本文可以得出结论:根据面向的不同应用领域,合理选择CPU的主频、总线宽度、CPU集群数量,并配合软件的算法优化,是提高单位功耗计算能力的正确方法。
服务器机群的应用方面可以分为数据优先和计算优先两类,以降低总体功耗、提高单位功耗计算能力为导向,总结出数据优先应用的服务器CPU芯片顶层设计规范:
1)控制主频在1GHZ以下,因为在目前芯片制作技术条件下,1GHZ以上主频的CPU芯片在工艺、能耗和成本会出现阶跃,工艺以90纳米为界.
2)CPU总线采用32位,可以满足大部数据优先的应用.
3)CPU芯片SOC化,减少对外设接口的支持,减少直至取消外围配套芯片,增强对网络通讯的支持。
4)采用多核、多线程计算,适当控制流水线级数。
5)对于数据优先应用,或一些专门的算法应用,不涉及浮点计算的应用环境,取消浮点部件。
依此规范设计出来的CPU芯片,称为“云计算节点专用CPU芯片”,使用这种专用芯片设计出来的微计算节点电路模块,除启动FLASH芯片、内存芯片外,几乎没有任何多余的外围芯片和电路模块,功耗控制在最低水平,体积也很小,多个微计算节点模块,配合电源模块、数据交换模块,组装出来的服务器,称为“微服务器(Micro-Server)”,大量微服务器组成集群,可以取代数据中心大部分数据优先应用的常规服务器,是实现大幅度降低数据中心总耗电量的首要和基础步骤。
依照上述理论指导,用0.65GHZ主频、32位MIPS架构的CPU组成微计算节点,功耗为50瓦,比较对象为2.9GHZ主频、64位双核、X86架构CPU的HP服务器(IntelG850),其主板功耗大于200瓦,两者均采用网络磁盘为数据储存方式,以LoadRunner为加压测试工具,测试结果如图2所示,纵坐标表示每秒点击数,横坐标表示加压数。
图2 每秒点击率对比图
为反映不同架构微计算节点的绿色性能指标,本文定义了一个绿色度量单位GGPW,它把1GB内存、1GHZ主频、1W功耗作为一个GGPW单位,用于比较不同架构、不同配置的CPU单位功耗计算能力参数.例如:一个CPU芯片含2个内核,主频为1GHZ,内存为2GB,功耗8W,那么它的GGPW值为:
2*1GHZ*2GB/8W=0.5GGPW,GGPW值越大,表示微计算节点的绿色计算能力越高,这个指标是一个简化模型,虽然在反映计算能力上欠精确,但在比较不同架构CPU的单位功耗计算能力时简单、实用.
由于微服务器的超低功耗特性,原来数据中心必须的24小时机房空调强制降温,变为了普通办公环境的空调使用,微服务器降低能耗、进而减少空调用电,仅这两条结合在一起,数据中心的用电量可减少到原来的25%。
2.2 太阳能主供电源技术
由太阳光辐射产生的能量称太阳能,太阳辐射到地球大气层的能量仅为其总辐射能量的22亿份之一,但已高达173太瓦(TW)[6],地球上的风能、水能、海洋能和生物能,都源于太阳能,即使是化石燃料(如煤、石油、天然气等),也是远古保存下来的太阳能,所以说,太阳能是地球上最清洁、最永续不灭的能源,在可再生能源中开发、研究得最为广泛。
但太阳能发电在当前存在两个问题,一是单位面积发出的电量不高;二是时间上不均匀,不论并网输送,还是离网应用,都需要加装蓄能设备,提高了发电成本,所以,太阳能给计算机供电时,只能小规模应用,或作临时备份手段使用。
由于采用微服务器作为数据中心的服务器设备,功耗得到了大幅度的降低,使得太阳能作为数据中心的主供电源成为了可能,而且不需要占用太大的发电场地,可充分利用机房楼顶、邻近空地等,取得经济和工程上的可行性,同时,绝大部分数据中心都使用蓄电池作UPS的主要蓄能装备,本设计可以巧妙地把它们转作为太阳能发电的蓄能用途,太阳能光伏产生的是直流电,给蓄电池充电时不需要整流,减少了部分整流损耗。
为反映微服务器集群构成的数据中心,采用太阳能为主供电源的可行性,本文定义了一个太阳能面积比的指标GSSR:GSSR=太阳能发电场面积/服务器机房面积,即在正常阳光照射条件下,可以完全满足单位面积安装的服务器全天使用所需要太阳能发电场面积,例如,一个500平方米机房中所有的服务器,24小时正常运行所需要的电量可以由4000平方米的太阳能光伏发电场在接受(每天)5小时阳光照后提供,不需要其它外供电源,那么,GSSR=4000平方米太阳能发电场面积/500平方米服务器机房面积=8.0,此时,可再生能源利用率接近当地全年日照天数比率,是最佳的绿色数据中心。
当阳光照射的有效时间少于设计值时,如阴天、冬季等,可以启动交流电(市电或柴油电)补充,交流电“降格”成为后备电源。
2.3 高压直流供电技术
目前的数据中心供电以交流电为主,三相四线AC380V为标准供电电源,经UPS模组,整流出直流电为蓄电池浮充电,蓄电池(直流电)再逆变为AC220V交流电给服务器机房配电,经服务器内部的电源模块又转换成低压直流使用,AC-DC、DC-AC、AC-DC三次变换,损耗率在20%左右。
本文在设计微服务器时,采用兼容高压直流输入和高压交流输入的电源模块,使得太阳能光伏发电DC240V、蓄电池储能DC240V、服务器电源输入DC240V,到服务器主板是低压直流,整个供电、配电、变换过程都是直流电、仅一次DC-DC变换,损耗在10%以下,采用DC240V标准,是兼容目前AC220V为输入标准的开关电源模块,保证它们的元器件耐压指标一致。
仅在太阳光照不足时,交流电整流给蓄电池充电,缩短交流电的使用时间,由长期使用变成短时间使用,AC-DC变换只有一次。
除服务器外,通讯交换机大部分也采用直流供电,如DC48V,机房照明采用LED照明,不仅减少照明灯具本身的功耗,而且直流电下,LED的交直转换和散热损耗均大大降低,只有大功率设备,如空调、新风机等,仍保留由交流供电驱动,相信未来直流空调、直流新风机等配套产品面市时,数据中心将成为全直流的用电环境,对功耗控制、电源质量都会带来质的飞越。
2.4 专用电源模块技术
对微服务器中的电源模块进行了特殊设计,其原理图如图3所示,1)兼容高压直流(DC240V)和高压交流(AC220V)输入,称为“异种电源双回路”;2)电源模块内置镍氢电池或锂电池,既可以实现异种电源双回路的“零秒”切换,又可以充分使用太阳能。
由于微服务器的电源模块本身就是一个小的UPS模组,使数据中心集中配备的UPS模组可以使用数量较少的蓄电池,减少一次性的投资。
图3 异种电源双回路不间断的服务器专用电源模块结构示意图
3 测试验证
由于微服务器实现了服务器功耗的大幅降低、进而空调用电量同比例降低,使得太阳能发电有条件成为主供电源,太阳能光伏直流供电实现了数据中心全程高压直流配电,当进一步采用“异种电源双回路不间断的服务器专门电源模块”,使供电更稳定和节约,每一个节能技术环节是环环相扣、严丝合缝的,四个节能技术措施创新性组合在一起,这种数据中心构建技术称为“绿云技术”,这样的数据中心机房称为“绿云房”。
表1 是按前言中的举例,比较绿云房与普通数据中心在同等10 万台服务器计算能力时的电能消耗情况.
表1 普通数据中心与绿云房对比表
社会效益方面,绿云技术在大幅减少耗电量的同时,把主供电源改为清洁的太阳能,节省超过3亿度传统电能,也就是节约燃煤100万吨/年(按照1吨煤可以发电3000度),减少的碳排放为245万吨/年(一吨标准煤会带来2.4567吨的二氧化碳排放量)。
4 实际应用
经历1年时间的理论测算、9个月时间的技术开发和测试,把包含四大创新技术组合的绿色数据中心整体解决方案充分论证定型,和当地的中国联通进行合作,在深汕特别合作区建立了全世界第一个全面实施“绿云技术”的数据服务中心--“微服务器集群架构的绿色云计算平台”,数据中心的整体结构如图4所示。
图4 中国联通&芯灵科技绿色数据服务中心结构示意图
整个数据中心的设计规模和经营情况为:
1)太阳能发电场面积5000平方米,总发电功率40万瓦;
2)服务器机房机柜总数达100个,部署微服务器1500台,微计算节点数18000个,机房面积650平方米,单纯以主频和CPU数作比较,该机房满装时计算能力为IBM“深蓝”超级计算机(以击败国际象棋大师而闻名于世)的3046倍,是Intel的超级计算机ASICRED(1997年TOP500的第一名,美国圣地亚国家实验用于模拟原子弹爆炸)的8.1倍。
3)MIPS和X86两种架构的微计算节点混合应用时,性能会进一步提高。
4)主要以微服务器包年出租和计算资源按时出租两种模式进行经营。
5)向其他第三方授权使用“绿云技术”,并提供核心技术和产品。
据中国联通数据中心提供的数据,与常规服务器机柜出租情况进行对比,比较情况如表2所示,在租金定价不变时,利润提高了四倍,或者下调租金,给客户更多优惠。
表2 微服集群经营数据对比表
上表是根据联通公司提供原来服务器机群条件的经营数据,代入新的微服务器集群参数后计算得到的经营效果数据。
该数据中心主体已经建成,第一期将开通太阳能发电20万瓦,服务器机房机柜数50个,微计算节点9000个,表3是该数据中心当前的实测数据,也是绿云房的“绿云技术”标准的推荐值。
目前,世界上已经有一些太阳能数据中心投入使用,如Intel在美国新墨西哥州里约牧场的数据中心安装了太阳能板,产生1万瓦功率的电力;IBM在印度班加罗尔5万瓦功率的太阳能发电设备,主要是应对当地电网设施的供电不稳定或者几乎不存在。
国际上这些太阳能数据中心案例,都只是简单添加太阳能发电装置,没有在数据中心架构上采取整体配套技术改造措施,而把太阳能发电、UPS配电和微服务器集群作一体化设计,把它们建造成一个有机的整体是本文最大的创新之处,不管是四项技术创新组合的绿色数据中心,还是在全面采用微服务器集群、高压直流配电方面,都居于领先地位。
表3“绿云技术”指标设计推荐值
5 意义重大
“绿云技术”的意义不仅仅是可以建立大幅度节能减排的数据中心,“绿云技术”概念的进一步发展,将对全球信息社会产生极为深远地影响,她向我们展现出一片美好的前景。
1)“绿云技术”成倍地提高了每瓦电能可产生的计算能力,让高性能计算以合理的经济性走入寻常百姓家,为云计算、信息社会快速发展注入了强大的动力。
2)“绿云技术”数据中心的供电、配电回归直流电时代,微服务器率先采用全直流供、配电系统,可能引领一波震天撼地的用电设备直流化浪潮。
3)由于太阳能光伏发电与直流用电设备是天然的伙伴,用电设备直流化,将猛推太阳能的普及使用.“绿云技术”带领人类返璞归真,重归白云、绿地的自然家园。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:微服务器集群架构的绿色云计算平台