面对数据量的急剧增长,传统存储技术面临建设成本高、运维复杂、扩展性有限等问题,主要体现在以下几个方面:
(1)开放性不足:盘阵存储标准化程度低,组件的更换常常导致系统故障或者硬件的升级,这些组件通常是由制造商专门开发用于此系统,不能轻易的利用市场上通用部件。
(2)成本较高:盘阵造价昂贵,导致系统建设成本居高不下;
(3)扩展性较差:传统盘阵单点扩展存在容量上限和接口带宽等限制,面对PB级的海量存储需求,传统的SAN或NAS在容量和性能的扩展上无法满足。
在此背景下,成本低廉、提供高可扩展性的云存储技术日益得到关注,本文将详细介绍存储的新技术——云存储的特征定义、相关技术发展现状及国际标准情况,并针对各类云存储技术,分析其对于电信运营商的适合应用场景及应用建议。
1 云存储概况
1.1云存储的定义
由于业内没有统一的标准,各厂商的技术发展路线也不尽相同,因此相对于云计算,云存储概念存在更多的多义和模糊现象。结合云存储技术发展背景及主流厂商的技术方向,可以得出如下定义:云存储不是指某一个具体的设备,而是指一个由许许多多个存储设备和服务器所构成的集合体。使用者使用云存储,并不是使用某一个存储设备,而是使用整个云存储系统带来的一种数据访问服务。云存储的核心是应用软件与存储设备相结合,通过应用软件来实现存储设备向存储服务的转变。
1.2云存储系统的特征
云存储系统应具有以下通用特征:
(1)高可扩展性:云存储系统可支持海量数据处理,资源可以实现按需扩展;
(2)低成本:云存储系统应具备高性价比的特点,低成本体现在两方面,更低的建设成本和更低的运维成本;
(3)无接入限制:相比传统存储,云存储强调对用户存储的灵活支持,服务域内存储资源可以随处接入,随时访问。
(4)易管理:少量管理员可以处理上千节点和PB级存储,更高效的支撑大量上层应用对存储资源的快速部署需求。
1.3云存储的分类
在存储资源获取接口上,云存储和传统存储在功能上并无差异,二者的区别体现在云存储可以按需提供易管理、高可扩展、高性价比的存储资源。根据存储的数据类型不同和应用需求不同,云存储系统可分为以下4种类型:
(1)提供块存储的云存储系统;
(2)提供文件存储的云存储系统。
(3)提供对象存储的云存储系统。
(4)提供表存储的云存储系统。
2 云存储技术现状和应用场景分析
2.1提供块存储的云存储系统
传统FC SAN系统就是典型的块存储系统。由于采用直接读写磁盘空间来访问数据,相对于其它数据读取方式,块存储的读取效率最高,一些大型数据库应用只能运行在块存储设备上。
一些厂家在SAN存储系统的基础上进行“云化”,在保证读取效率和设备可靠性的情况下,增加设备的扩展能力。这种云化方案主要包括两类技术,一种为存储虚拟化,另一种为新存储架构。
2.2存储虚拟化
根据虚拟化实现层面的不同,存储虚拟化又分为基于主机的虚拟化、基于存储网络的虚拟化和基于存储设备的虚拟化3类。
各类存储虚拟化技术的实现方式、技术优缺点及使用场景分析如表l所示。
基于传统FC SAN存储、通过第三方虚拟化设备实现存储的弹性扩展的存储虚拟化技术也可以算作云存储系统。但由于虚拟化硬件或软件的性能瓶颈问题、传统磁盘阵列本身有限的扩展能力以及异构设备故障定位困难等问题,存储虚拟化技术应用具有一定局限性,对于遗留FC SAN存储系统,建议选择适合的存储虚拟化技术进行资源整合和分级存储,以实现存储资源的有效利用。
表1 各类存储虚拟化技术对比及适用场景分析表
2.3新存储架构
目前一些传统存储设备厂商也推出了全新架构的云存储系统,如通过改变前端交换矩阵结构、通过分布式算法管理的网格存储等在设计上实现块存储系统的scale Out。此类代表的产品有EMC V—MAX和IBM XIV。
V—MAX其后端架构体系和现有盘阵相同,可在新建系统中考虑使用,并可与原有传统盘阵进行虚拟化整合。但其拥有成本仍然较高,XIV属于全新架构的阵列设备,无法与传统FC SAN设备以虚拟化方式进行整合,引入必然带来新的存储竖井,在已有系统扩容中不建议考虑,但由于其采用标准硬件单元,成本降低。也可在新建生产系统时谨慎采用。由于设备的厂商私有性,各厂商新架构的云存储系统之间难以兼容。
2.4提供文件存储的云存储系统
文件存储系统可提供通用的文件访问接口,如POSIX、NFS、CIFS、FTP等,实现文件与目录操作、文件访问、文件访问控制等功能。文件系统云存储系统适合处理海量非结构化数据,目前提供文件存储的云存储系统包括两类:
(1)软硬件一体解决方案:基于X86硬件,但利用专有的、定制设计的硬件组件,与厂家分布式文件系统集成在一起,以实现目标设计的性能和可靠性目标。
(2)软硬件分离解决方案:基于开源分布式文件系统对外提供弹性存储资源,软硬件分离方式。可采用标准PC服务器硬件。
2.5软硬件一体机
软硬件一体机又可进一步分为并行文件系统和NAS虚拟化系统,前者代表产品为EMC Isilon ONE FS和IBM SONAS GPFS,后者代表产品为HP X9000(IBRIX Fusion FS)。
NAS虚拟化本质为NAS机头+集中存储的解决方案,存在管理节点的瓶颈,同时以文件为粒度的分布式决定了其有限的文件读写性能,不是完全意义上的分布式文件系统,前两者为分布式并行文件系统,且无管理节点瓶颈,但均采用集中共享存储,文件系统成熟度较好,但软硬一体的结构带来成本问题和未来扩容的局限性问题。
2.6软硬件分离的分布式文件系统
分布式文件系统虽然已经提出很多年,但由于以开源产品或自用技术为主,既无统一标准又缺少成熟商用产品,因此真正的商用应用较少。代表性的为Google的GFS和开源的HDFS,另外Facebook、淘宝、腾讯等均开发了自己的分布式文件系统,用于管理其Blog、相册等数据信息。近年来一些国内厂商也推出了商用的软硬件分离的分布式文件系统。
HDFS可以认为是GFS的一个简化版实现,采用单一主控机(Master)+多台工作机的模式,由一台主控机存储系统全部元数据,并实现数据的分布、复制、备份决策,工作机存储数据并根据主控机的指令进行数 据存储、数据迁移和数据计算等。HDFS通过数据分块和复制(多副本,一般是3)来提供更高的可靠性和更高的性能。同时,针对数据读多于写的特点,读服务 被分配到多个副本所在机器,提供了系统的整体性能。HDFS提供了一个树结构的文件系统,实现了类似与Linux下的文件复制、改名、移动、创建、删除操 作以及简单的权限管理等。但HDFS为避免多客户端对同一文件的追加,简化了设计,不支持对文件的Append追加操作,这也使得HDFS不能提供标准的 POSIX接口,不能成为一个完整意义上“文件系统”。
软硬件分离分布式文件系统解决方案与厂商私有分布式文件系统一样,可通过分布式架构有效提高文件并发读写性能,且能够构建在标准的x86服务器集群之上.比软硬件一体设备具有更好的扩展性并可有效降低建设成本,但开源软件本身的成熟度有待验证。
图1 HDFS技术架构示意图
2.7提供对象存储的云存储系统
对象存储是为海量数据提供Key—Value这种通过键值查找数据文件的存储模式,它引人对象元数据来描述对象特征,对象元数据具有丰富的语义,引人容器 概念作为存储对象的集合。对象存储系统服务层对应用系统提供基于http/https协议的对象存储WebService服务或直接提供API接口,底层 基于分布式存储系统来实现数据的存取,具体存储方式对外部应用透明。这样的存储系统架构具有高可扩展性,支持数据的并发读写,一般不支持数据的随机写操 作。
2.7.1 AmazoN S3
Amazon S3 (Amazon Simple Storage Service)是亚马逊公司利用他们的亚马逊网络服务系统所提供的网络线上储存服务。经由Web服务界面,提供给用户包括REST, SQAP与BitTorrent接口,使用户能够轻易把档案储存到网络服务器上。
S3基本概念:
(1)桶(bucket):类比于文件系统的目录,存储对象的容器,不能嵌套,名称全局唯一;
(2)对象(object):类比文件系统的文件,包含对象数据和对象元数据。对象元数据用来描述对象特征,具有丰富的语义,并带有版本概念。上传的对象在其存储周期内不能改变,
(3)键值(Keys):类比文件名,key的样式是URL。
同名文件的写人,并不覆盖已有文件而是增加了一个最新的文件版本(图2左)。同样下面的删除也不真正删除,而是mark了删除标记(图2右)。当最新版本 mark为deleted之后,对该对象的get操作返回错误,除非明确指定一个历史版本。也可以指定版本永久删除其中一个拷贝。
2.7.2 中国移动BC-ONEST
中国移动大云也提供了对象存储模块BC-ONest,基本概念与S3类似,相关接口如下:
Native API接口:提供C++, Java API接口,实现本地高并发数据操作。
Internet接口:基于http/https的REST/SOAP访问接口,用户可以通过互联网随时随地的上传、访问系统中的对象数据;系统为用户的接人和数据的传输提供安全可靠的通道。
Cloud NA5接口:本系统支持以NAS Server的形式对外提供基于文件系统访问接口的存储服务。客户端应用可以通过“挂载(mount)”,将远程的对象存储空间映射为本地的文件系统。
小结:对象存储技术相对成熟,国内外也有很多成功案例,对于运营商来说,对象存储对底层硬件要求不高,存储系统可靠性和容错通过软件实现,同时其访问接口 简单,适合处理海量、小数据的非结构化数据,如在线的公共云存储服务、数据备份服务等;移动互联网类应用,如邮箱、网盘、相册、音频视频存储等。
图2 Amazon 53存储操作示意图
2. 8提供表存储的云存储系统
表结构存储是一种结构化数据存储,如传统数据库相比,它提供的表空间访问功能受限,但更强调系统的可扩展性。提供表存储的云存储系统的特征就是同时提供高并发的数据访问性能和可伸缩的存储和计算架构。如表2所示。
表2 结构云存储与传统数据库比较表
提供表存储的云存储系统有两类接口访问方式。一类是标准的xDBC, SQL数据库接口,一类是MapReduce的数据仓库应用处理接口。前者目前以开源技术为主,尚未有成熟的商业软件,后者己有商业软件和成功的商业应用案例。
2.8.1 分布式数据仓库
分布式数据仓库一般采用MPP( Massive ParallelProcessing)架构实现海量数据存储和处理、以及高并发数据读写能力,它实现了SQL到MapReduce的翻译,优化.执行和 结果收集,具有良好的扩展能力。分布式数据仓库能基于各种开放式硬件平台,同时支持SQL和MapReduce接口。
分布式数据仓库的代表系统:商业软件GreenPlum,中国移动HuqeTable、开源Hive等。
图3 为Green Plum的SharcNothiny体系架构示意图
2.8.2分布式数据库
分布式数据库同样基于低成本的PC服务器,提供了高度可伸缩的存储和计算架构。数据存储、可靠性依赖于表存储底层采用的文件存储;高性能的数据读写能力也需要利用底层并行文件系统的并行数据读写能力。分布式数据库的代表系统:Google BigTable。
BigTable承载了Google搜索引擎、邮件、地图、Analytics等应用的结构化数据,容量达到十PB规模,它提供了简单的数据模型,支持快 速数据定位、扫描,但是不支持RDBMS的关系运算如报表、多表查询、复杂关系运算。BigTable可提供高性能数据读写,利用内存写十日志保证数据写 性能,利用数据分区+三层索引提高读性能,尤其是数据扫描的性能。
小结:分布式数据仓库领域里。商用Greenplum和开源的Hive有了大量的成功案例,己经成为BI领域发展趋势.适用于海量数据ETL处理、数据挖掘应用、以及网管信令分析应用、海量日志处理等。
分布式数据库目前以开源为主,尚未有成熟的商业软件,其与并行计算模式配合可实现高性能可伸缩的批处理,可用于话单结算等场景,并提供了简单的数据模型以支持快速数据定位、扫描,但目前不适用于业务逻辑复杂的OLTP应用,如CRM和ERP等。
图4 BigTable的逻辑模型与物理设计示意图
模型以支持快速数据定位、扫描,但目前不适用于业务逻辑复杂的OLTP应用,如CRM和ERP等。
2.9相关国际标准简介
SNIA(Storage Networking IndustryAssociation )于2010年4月12日推出首个云存储标准—CDMI ( Cloud Data Management Interface)标准,主要面向存储即服务(DaaS),属于对象存储的范畴,厂家产品可以以CDMI标准为基础提供按需虚拟存储或相关数据服务。
由于篇幅有限,本文不再详细叙述CDMI标准。
3 结束语
以上详细阐述了不同数据类型的云存储技术,并一一分析了其应用场景。
对于企业私有云应用,面对各类生产系统的存储需求,要求云存储系统按需提供不同空间容量、不同性能的存储资源,应积极采用存储虚拟化技术整合现有FC SAN资源,挖掘设备潜力,建立分级存储机制,使数据合理分布,在海量非结构化数据处理、日志详单处理、经营分析领域等积极实验和试点分布式存储解决方 案。
对于公众云服务,云存储的成本和扩展性是首要考虑,应基于标准x86服务器,采用分布式对象存储技术提供有竞争力的云存储服务,为将来云服务在更大范围的融合和合作奠定基础,在云存储服务接口上应统一规范要求,建议参考CDMI国际标准。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:云存储技术发展及应用
本文网址:http://www.toberp.com/html/consultation/1083967643.html