一 引言
云计算作为当前业界的热点,其主要功用之一是处理急剧增长的海量数据信息,而它之所以能够做到这一点是因为其背后拥有着强大的云存储技术的有效支持。类似于云计算,云存储也是基于网络的能够高效可靠地按需为用户提供存储服务。云存储与存储虚拟化具有密不可分的关系。为了做到动态按需分配,云存储需要在网络中拥有充足的资源以位置透明的方式提供给用户,这就需要依赖于存储虚拟化技术屏蔽掉底层存储硬件对上层应用的影响,使得存储资源能够以一个“无穷无尽”的资源池的方式展现给用户。
二 存储虚拟化
存储虚拟化的三种技术类型:基于网络附加存储(NAS)、存储区域网络(SAN)和Google文件系统(GFS)。
传统的存储虚拟化主要基于网络附加存储(Network Attached Storage,NAS)和存储区域网络(Storage Area Network,SAN)等存储系统技术,通过在物理存储系统和服务器之间增加一个虚拟层,实现对分散的、不同品牌、不同级别的多个存储系统的整合。NAS和SAN都是基于网络为用户提供存储资源的技术,但不同点在于NAS是采用文件系统管理硬件存储资源,并通过网络协议(例如NFS协议和CIFS协议)为用户提供文件级的存储访问,它可以支持异构客户端的共享访问;而SAN是采用专用的存储网络设备连接存储资源硬件为用户提供块级的存储访问,对它的访问需要依赖于客户端文件系统。这两种技术都使用专用的存储设备作为底层硬件资源,但NAS采用网络协议会降低传输过程中的有效载荷比从而性能不高,而SAN采用专用存储网络具有较高的传输性能但是价格较贵。另外,NAS中存储的文件能够被异构客户端共享访问,而SAN却很难做到这一点。
虽然基于NAS和SAN的存储虚拟化方法得到了厂商的广泛支持,在以往的存储系统中多有应用,但是面对云计算的海量、高可扩展、高可靠、高性能等存储需求,这些传统的存储虚拟化技术普遍存在着缺陷。于是,一类以Google文件系统(Google File System,GFS)为代表的新兴的以分布式文件系统为基础的存储技术引起了业界的关注,并已经在云存储领域取得了比较好的效果。
类GFS的存储系统普遍采用主到从架构,由一个或几个管理节点和多个分布的存储节点组成。不同于基于专用存储设备的传统存储技术,系统中的节点采用了遵循统一标准的既具有计算能力又具有存储能力的PC服务器。每个存储节点利用自己的文件系统对本地存储资源进行管理,再由管理节点通过部署在各个节点上的分布式文件系统为系统中所有的存储资源提供统一的文件名字空间,构成虚拟的存储资源池,因此这类系统具有良好的可扩展性,能够应对海量数据的存储和管理。同时也具有较低的价格。在系统中,数据的存取以文件为单位,每个文件被采用分块的方式保存并且存有多个副本。因此,同一文件的多个数据块可以分布在不同的存储节点上,这使得隶属于同一文件的多个数据块可以被并行地存取,具有较高的吞吐性能。另外,文件数据块副本的分布式存储提高了文件访问的可靠性,避免了某个节点出现故障对文件正常存取的影响。同时,当某个存储节点出现问题时,管理节点会及时发现并将故障节点中的数据重新分布到其它正常节点中,保证节点级的可靠性。
与传统的存储虚拟化比较,类GFS的基于分布式文件系统的存储虚拟化技术能够更好地满足云计算的需求,在业界有着非常广阔的应用前景。但是这类系统也具有局限性,例如不适合实时要求高的随机数据访问、管理节点容易成为系统瓶颈、缺少POSIX兼容接口增加应用难度等等。
三 云存储服务的三种模式
存储虚拟化是云存储的基础,但是云存储并不仅仅是一个技术名词,它更代表了新兴的服务理念和运营思路。类似于云计算的基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)三类服务模型,云存储服务的模型也可以被细分为存储资源即服务(Storage as a Service)、数据即服务(Data as a Service)、信息即服务(Information as a Service)等三类服务。在不同的服务中采用合适的存储虚拟化技术作支撑,往往可以获得事半功倍的效果。
存储资源即服务是为用户提供存储空间的服务。当用户提出存储空间请求时,云存储系统会在存储资源池中划分出用户所需的空间供其进行相关的存储应用开发,这一点类似于云计算的IaaS服务。存储资源即服务将底层硬件存储资源进行整合,构建出统一的资源视图,然后按需分配给用户使用,并做到动态弹性缩放,能够有效地提高存储资源利用率,降低用户的存储设备投资和管理成本。存储资源即服务是存储虚拟化技术的设计目标之一。因此无论是传统的存储虚拟化技术还是新兴的类GFS虚拟化技术均能较好地满足功能需求,特别是类GFS虚拟化技术因为其采用的存储设备具有统一的标准,因此可以具有更优的扩展性。另外,在功能需求被满足的前提下,不同存储系统技术在成本和性能上会有些许差异。
数据即服务是为用户提供计算数据的服务。与存储资源即服务不同,它提供的服务是存储的内容而并非存储空间本身。根据用户的需求,数据即服务及时地将计算所需的数据提供给计算单元,达到数据存储为计算服务的目的,这一点类似于云计算的PaaS服务。对于这类服务,类GFS虚拟化技术具有更优的效能,这是因为这类系统中的存储节点和计算节点往往复用同一节点(例如Google的GFS文件系统和MapReduce计算模型),有效地减少了计算过程中的数据传输。而在传统的存储虚拟化系统中,需要额外的通道将虚拟化存储中的数据传输到计算单元中,具有较高的延迟。但是类GFS虚拟化技术具有一定的局限性,它要求计算过程能够并行化,计算步骤可以散布到存储节点上,因此它并非适用于所有应用场合。
信息即服务是为用户提供应用信息的服务。与数据即服务不同,它提供的服务是数据经过处理后的能够直接交付给用户直接应用的信息,这一点类似于云计算的SaaS服务。提供这类服务,除了前文提及的信息存储过程外,更重要的是服务提供方式,最常见的就是为用户提供信息查询。对于存储系统而言,高效的查询过程的实现需要借助数据库系统,因此无论是传统的存储虚拟化技术还是新型的类GFS虚拟化技术,对数据库的支持将非常重要。在这一点上,天生依赖于文件系统的存储系统(例如NAS存储系统和类GFS系统)因为其数据库应用必须构建于文件系统之上从而会导致额外的开销,而那些能够直接对块存储设备直接操作的系统(例如SAN系统)则具有一定的性能优势。
综上所述,存储虚拟化技术类型与云存储服务方模式也在不断地发展严禁之中。云存储核心技术的选择必须建立在针对实际业务需求的全面评估的基础之上,切不可盲目跟风,否则不但会使得云存储的效果事倍功半,还会进一步引起云计算相关领域的连锁不良反应。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:海量信息的存储和使用
本文网址:http://www.toberp.com/html/consultation/1083974482.html