IBM公司于2007年底宣布了云计算计划,云计算的概念出现在大众面前,为了更好地了解云计算这个名字后面的本质含义,本文拟通过具体分析工业界推出的几个被广泛接受的云计算实现,以及学术界针对当前大规模数据处理上所作的努力,为读者剖析云计算背后所采用的具体技术,首先看一下在IBM的技术白皮书“Cloud Computing”中的云计算定义:
“云计算一词用来同时描述一个系统平台或者一种类型的应用程序,一个云计算的平台按需进行动态地部署(provision)、配置(configuration)、重新配置(reconfigure)以及取消服务(deprovision)等,在云计算平台中的服务器可以是物理的服务器或者虚拟的服务器,高级的计算云通常包含一些其他的计算资源,例如存储区域网络(SANs),网络设备,防火墙以及其他安全设备等,云计算在描述应用方面,它描述了一种可以通过互联网Internet进行访问的可扩展的应用程序,“云应用”使用大规模的数据中心以及功能强劲的服务器来运行网络应用程序与网络服务,任何一个用户可以通过合适的互联网接入设备以及一个标准的浏览器就能够访问一个云计算应用程序。”
上述定义给出了云计算两个方面的含义:一方面描述了基础设施,用来构造应用程序,其地位相当于PC机上的操作系统;另一方面描述了建立在这种基础设施之上的云计算应用,在与网格计算的比较上,网格程序是将一个大任务分解成很多小任务并行运行在不同的集群以及服务器上,注重科学计算应用程序的运行,而云计算是一个具有更广泛含义的计算平台,能够支持非网格的应用,例如支持网络服务程序中的前台网络服务器、应用服务器、数据库服务器三层应用程序架构模式,以及支持当前Web 2.0模式的网络应用程序,云计算是能够提供动态资源池、虚拟化和高可用性的下一代计算平台,现有的云计算实现使用的技术体现了以下3个方面的 特征:
1) 硬件基础设施架构在大规模的廉价服务器集群之上,与传统的性能强劲但价格昂贵的大型机不同,云计算的基础架构大量使用了廉价的服务器集群,特别是x86架构的服务器,节点之间的互联网络一般也使用普遍的千兆以太网。
2) 应用程序与底层服务协作开发,最大限度地利用资源,传统的应用程序建立在完善的基础结构,如操作系统之上,利用底层提供的服务来构造应用,而云计算为了更好地利用资源,采用了底层结构与上层应用共同设计的方法来完善应用程序的构建。
3) 通过多个廉价服务器之间的冗余,使用软件获得高可用性,由于使用了廉价的服务器集群,节点的失效将不可避免,并且会有节点同时失效的问题,为此,在软件设计上需要考虑节点之间的容错问题,使用冗余的节点获得高可用性。
通过上面的技术手段,云计算达到了两个分布式计算的重要目标:可扩展性和高可用性,可扩展性表达了云计算能够无缝地扩展到大规模的集群之上,甚至包含数千个节点同时处理,高可用性代表了云计算能够容忍节点的错误,甚至有很大一部分节点发生失效也不会影响程序的正确运行,学术界其实很早就展开了针对云计算方便用户使用方面的研究,很多学术上的研究成果远早于云计算概念提出来之前就已得出,我国的计算机研究人员远在“云计算”这个名词提出之前就已有透明计算的构思,透明计算体现了云计算的特征,即资源池动态的构建、虚拟化、用户透明等,清华大学张尧学教授(中国工程院院士)早在1998年就开始从事透明计算系统和理论的研究,工业界很多公司则分别提出了自己针对云计算的理解,用不同的技术来实现上述云计算的目标。
本文主要研究工业界3个具体的云计算实例,具体包括Google的云计算平台以及云计算的网络应用程序、IBM公司的“蓝云”平台产品以及Amazon公司的弹性计算云。此外,对云计算的学术研究现状也进行了调研与分析。
1 清华大学透明计算平台
张尧学教授领导的研究小组从1998年开始就从事透明计算系统和理论的研究,到2004年前后正式提出,并不断完善了透明计算的概念和相关理论,随着硬件、软件以及网络技术的发展,计算模式从大型机的方式逐渐过渡到微型个人计算机的方式,并且近年来过渡到普适计算上,但是用户仍然很难获得异构类型的操作系统以及应用程序,在轻量级的设备上很难获得完善的服务,而在透明计算中,用户无须感知计算具体所在位置以及操作系统、中间件、应用等技术细节,只需要根据自己的需求,通过连通在网络之上的各种设备选取相应的服务。
图1显示了透明计算平台的3个重要组成部分,用户的显示界面是前端的轻权设备,包括各种个人计算机、笔记本、PDA、智能手机等,被统称为透明客户端,透明客户端可以是没有安装任何软件的裸机,也可以是装有部分核心软件平台的轻巧性终端,中间的透明网络则整合了各种有线和无线网络传输设施,主要用来在各种透明客户端与后台服务器之间完成数据的传递,而用户无须意识到网络的存在,与云计算基础服务设施构想一致,透明服务器不排斥任何一种可能的服务提供方式,既可通过当前流行的PC服务器集群方式来构建透明服务器集群,也可使用大型服务器等。
图1 透明计算系统的组成结构
当前透明计算平台已经达到了平台异构的目的,能够支持Linux以及Windows操作系统的运行,用户具有很大的灵活性,能够自主选择自己所需要的操作系统运行在透明客户端上,透明服务器使用了流行的PC服务器集群的方式,预先存储了各种不同的操作平台,包括操作系统的运行环境、应用程序以及相应的数据,每个客户端从透明服务器上获取并建立整个运行环境以满足用户对于不同操作环境的需求,由于用户之间的数据相互隔离,因此服务器集群可以选取用户相对独立的方式进行存储,使得整个系统能够扩展到很大的规模,在服务器集群之上进行相应的冗余出错处理,很好地保护了每个用户的透明计算数据安全性。
2 Google的云计算平台
Google公司有一套专属的云计算平台,这个平台先是为Google最重要的搜索应用提供服务,现在已经扩展到其他应用程序,Google的云计算基础架构模式包括4个相互独立又紧密结合在一起的系统:Google File System分布式文件系统,针对Google应用程序的特点提出的MapReduce编程模式,分布式的锁机制Chubby以及Google开发的模型简化的大规模分布式数据库BigTable。
·Google File System文件系统(GFS)
除了性能,可伸缩性、可靠性以及可用性以外,GFS设计还受到Google应用负载和技术环境的影响,体现在4个方面:
1) 充分考虑到大量节点的失效问题,需要通过软件将容错以及自动恢复功能集成在系统中;
2) 构造特殊的文件系统参数,文件通常大小以G字节计,并包含大量小文件;
3) 充分考虑应用的特性,增加文件追加操作,优化顺序读写速度;
4) 文件系统的某些具体操作不再透明,需要应用程序的协助完成。
图2给出了Google File System的系统架构,如图2所示,一个GFS集群包含一个主服务器和多个块服务器,被多个客户端访问,大文件被分割成固定尺寸的块,块服务器把块作为Linux文件保存在本地硬盘上,并根据指定的块句柄和字节范围来读写块数据,为了保证可靠性,每个块被缺省保存3个备份,主服务器管理文件系统所有的元数据,包括名字空间、访问控制、文件到块的映射、块物理位置等相关信息,通过服务器端和客户端的联合设计,GFS对应用支持达到性能与可用性最优,GFS是为Google应用程序本身而设计的,在内部部署了许多GFS集群,有的集群拥有超过1 000个存储节点,超过300T的硬盘空间,被不同机器上的数百个客户端连续不断地频繁访问着。
图2 Google File System的系统架构
·MapReduce分布式编程环境
Google构造MapReduce编程规范来简化分布式系统的编程,应用程序编写人员只需将精力放在应用程序本身,而关于集群的处理问题,包括可靠性和可扩展性,则交由平台来处理,MapReduce通过“Map(映射)”和“Reduce(化简)”这样两个简单的概念来构成运算基本单元,用户只需提供自己的Map函数以及Reduce函数即可并行处理海量数据,为了进一步理解MapReduce的编程方式,下面给出一个基于MapReduce编程方式的程序伪代码,程序功能是统计文本中所有单词出现的次数。
在图3所示的map函数中,用户的程序将文本中所有出现的单词都按照出现计数1(以Key-Value对的形式)发射到MapReduce给出的一个中间临时空间中,通过MapReduce中间处理过程,将所有相同的单词产生的中间结果分配到同样一个Reduce函数中,而每一个Reduce函数则只需把计数累加在一起即可获得最后结果。
图4给出了MapReduce执行过程,分为Map阶段以及Reduce两个阶段,都使用了集群中的所有节点,在两个阶段之间还有一个中间的分类阶段,即将中间结果包含相同的key的中间结果交给同一个Reduce函数去执行。
图3 基于MapReduce框架的单词统计程序举例
图4 MapReduce处理程序的执行过程(M代表Map函数的执行,R代表Reduce函数的执行)
·分布式的大规模数据库管理系统BigTable
由于一部分Google应用程序需要处理大量的格式化以及半格式化数据, Google构建了弱一致性要求的大规模数据库系统BigTable,BigTable的应用包括Search History,Maps,Orkut,RSS阅读器等。
图5给出了在BigTable模型中给出的数据模型,数据模型包括行列以及相应的时间戳,所有的数据都存放在表格单元中,BigTable的内容按照行来划分,将多个行组成一个小表,保存到某一个服务器节点中,这个小表就被称为Tablet,图6是整个BigTable的存储服务体系结构。
图5 Google BigTable的数据模型
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:云计算:系统实例与研究现状(上)
本文网址:http://www.toberp.com/html/consultation/1083979200.html