近几年来,网络存储以及I/O技术一直都是计算技术发展领域中的一项非常重要的技术,该技术的特性不仅决定了计算机在处理方面的能力,而且还进一步地决定了计算机在整体性能和应用环境上面的能力,从根本上讲,无论是现在还是将来,网络存储技术和I/O技术都将制约着计算机技术的应用和发展,尤其是在高端计算的领域。
1988年,Patterson和Gibson等人提出了RAID概念,这是信息存储研究领域中最重要的一个突破,也是在实现理想信息存储系统道路上迈出了至关重要的一步,目前,网络存储技术和I/O技术发生了革命性的变化,迫使巨大的市场与数据存储产生了迫切的需求,高性能计算平台的发展需要高性能、可扩展性、可共享、自适应、海量、高可靠和高可用的I/O和存储技术,信息爆炸的时代给网络存储带来了前所未有的机遇和挑战,核心技术的攻克并转化为应用又推动了信息化,使得比特流到处蔓延,存储技术的发展是多方面的:存储介质新材料、新编码体制、存储体系结构创新、I/O智能接口技术的突飞猛进,在最近的20年以来,存储部件性能提高了数百倍,存储密度提高了数百万倍,I/O接口正向串行方向发展。
1 国内外技术发展现状
近年来业界对存储领域尤为关注,存储正在走向信息技术的中心,除了美国国家标准以外,如IEEE的存储系统标准化委员会(Storage SystemStandards Committee, SSSC)正致力于存储标准的制定与推广,如存储系统标准化工作组(StorageSystem Standards Working Group,SSSWG)、海量存储系统技术委员会(MassStorage Systems TechnicalCommittee, MSSTC)、存储数据安全(Security in Storage)等组织正在作一些技术调查和标准、规范的制定工作,但是还是落后于市场的要求,人们往往利用事实的标准作为产品的标准,虽然统一系统区域网和存储区域网的标准已经出现,但适用和规模化的产品还未出现。
网络存储及其关键技术为各大研究机构和公司如IBM,SUN,HP,EMC,LSILogic,StorageTek、日立数据等实现其技术进步的重要支柱,他们重视该领域研究,引导技术发展,制定了相关总线、接口甚至系统互连接口规范和标准,如光纤通道(fiberchannel,FC)接口、SCSI,SAS,SATA,iSCSI,Infiniband等,并将其首先应用于高尖端的巨型机系统中,充分发挥应有的潜力,利用技术辐射,形成标准化系统,加速其产品化进程,目前较为流行的有:基于存储区域网的海量存储系统和基于类似以太网等类型的存储系统,存储专业厂家和计算机界的大公司纷纷投入了重兵、巨资和充足的物力加大研发力度,使自己的产品成为未来的标准和龙头,现在仍然是群雄割据。
而我国从20世纪末已经关注到存储系统在产业链中的重要地位,开展了大规模网络存储系统及其关键技术的研制,开始在大型网络存储系统、广域存储系统研究上进行重点支持,并由此产出一批具有国内领先水平的科研成果、专利和产品,开始推向市场,为网络存储今后的研究和产业化打下了很好的基础,但与国际研究水平和产品相比,差距还很大,从工业基础、技术积累、人才培养、研发模式、特别是产业化途径都存在着许多困难和障碍,因此,必须抓住机会,兼顾主流技术发展趋势,加大投入,开发出既符合标准又有发展前途的高端网络存储产品,突破关键核心技术,增强自主创新能力,提高企业的核心竞争力,提升国家的综合国力。
2 存储部件的支撑技术
存储部件主要技术包括存储体系结构、智能I/O系统架构、高性能接口技术及多种网络协议、高性能处理器平台包括嵌入式系统、系统内部互连总线、高效缓冲管理、虚拟存储与管理、多机共享与负载平衡、并发数据流控制、传输、交换、信息系统容错和容灾、数据安全、数据存储网格、信息融合及其应用等技术。
存储的主要硬件系统平台有:高性能服务器平台,如EMC,IBM,SUN等采用高性能服务器和超强I/O挂接能力,集成出高可靠的存储平台;定制处理器平台,如HP,Hitach等厂家的产品;嵌入式处理平台,如LSILogic,EMC厂家的产品,软件系统平台有:高可靠实时操作系统,如VxWork等;商用操作系统,如WindowsXP等;嵌入式操作系统,如嵌入式Linux等,控制器采用智能I/0架构,应用ROMB(RAID on Motherboard),ROC(RAID onChip)方式等,如AMCC-3WARE, LSILogic等厂家的产品。
3 存储部件的系统结构
通常存储部件采用总线式控制器、主机热备式双控制器的HA结构、网络存储交换架构、上述3种结构的混合。
3. 1总线式模式
以存储部件为基础的中低端的存储系统采用了嵌入式硬件处理平台、高可靠的嵌入式软件系统和总线结构来实现其系统扩展,利用SAS点对点和扩展功能同样能够实现上述功能,熊够提供冗余路径,保证设备端的高可靠,利用Intel IOP嵌入式系统和SAS总线形成iSCSI-Storage,完成了主机适配、阵列处理、设备接口和缓冲管理等功能,根据SAS总线的Expander可扩展性实现系统的互连和存储容量的增减。
3. 2服务器平台HA结构
实现高可靠的存储部件的另外一种途径是利用现有服务器平台和定制服务器平台实现存储控制器,IBM DS8000系列和DDN SFA 1000/1000 E谏列是其典型的开发案例。
IBM采用的是传统对称体系结构,用强大的P570服务器作为存储控制器,所以存储的管理OS运行在控制器内,CPU与内存也在控制器内,其中DS8100用双2路结构,DS8300用双4路结构,这一种体系结构是应当是说与现有的中端存储的结构很相似,DS8000系列采用的这种体系结构在可靠性方面是比HDS的USP系列有所欠缺,另外,因为采用OS的内存来做存储的Cache,所以Cache size就是页面大小,默认为4 KB,这样的Cache Size对小的I/O很适合,但是对大型的I/O操作,过大的Cache大小可能会有额外的管理负担,虽然在Cache的冗余结构设计上相比于HDS和EMC的全交换模式有劣势,但P570服务器有两级Cache,加上主内存形成了3级分层模式,从而与单一的专有Cache结构相比能取得更好的系统性能。
IBM DS8000系列支持两个虚拟分区,每个分区可以独立运行DS8000的系统程序,DS8000系列采用PowERPC5+处理器,两个分区的主内存均由易失内存和非易失内存两部分构成,结合P570采用的对称结构,每个分区的处理器既可以访问自己易失内存也可以访问另一个分区的非易失内存,以IBM DS8300为例,其前端支持128个4GbpsFC端口、128个FICON端口和64个ESCON,不支持iSCSI端口,DS8300最大支持1024块磁盘,容量达PB级,DS8700存储的最低层为HDD组成的阵列,其上为SSD组成的阵列,是层次式存储的一个典型案例。
DDN SFA 1000/1000 E是S2A推出的一款适应于高性能计算和流媒体视频应用的高可用的磁盘阵列存储部件具有双控制器和主机端口,支持8Gbps光纤通道和IBA的QDR接口,可挂接PB数量级的存储容量,具有RAID6等功能,方便管理,其控制器采用定制服务器平台。
图1 SFA10000 Active/Active RAID Controller结构
3.3 交换结构
高端存储部件为了保证系统的高可靠、高可用和高性能,通常情况下,均采用交换结构,其负责协议解析和处理的主机适配端口、大容量高速缓存端口和具有阵列功能的设备端口均挂接在冗余路径的Crossbar上,实现系统和数据的互连互通。
Symmetrix DMX系列和ETERNUS8000系列采用了这种设计思想,EMC的Symmetrix DMX-3于2005年发布,并在2007年7月发布了其性能优化版本Symmetrix DMX-4,其设计核心与HDS的USP系列类似,也是以Cache为核心,所不同的是Symmetrix DMX-3和DMX-4采用镜像Cache矩阵直连的方式,DMX-4的处理器采用PowERPC,支持64个4 GBps FC接口、48个FICON接口和64个ESCON接口,前端带宽为256GBps,后端带宽为256GBps,有效带宽为32GBps。
ETERNUS8000系列共有4个模型,分别为Mode1700,900,1100,2100,所支持的存储容量也依次增加,其中Mode12100满配置容量超过1PB,ETERNUS8000系列中除Mode1700以外,均采用前端控制器交换互连,前端控制器与后端存储FC交换互连的结构,ETERNUS8000的Mode12100支持128个4GbpsFC接口、64个iSCSI接口,并支持多种RAID级别,包括RAID0,1,5,6等,支持基于Server的Failover软件,最大支持2760块磁盘,最大容量达PB级。
4 一种安全存储部件的设计
4.1存储部件设计
4.1.1硬件组成
如图2所示,系统的硬件主要包括CPU中心硬件、磁盘通道控制器硬件
和连接到PCI-E Switch的功能硬件,具体如下:
图2 存储部件硬件
1)CPU中心硬件
主要由IOP81348 CPU,DDR内存、CPLD,LCD控制器、CF接口、Flash芯片以及通过I2C连接的风扇/电源控制器等组成,CPU内部提供RAIDS/6硬件XOR引擎,8条SAS链路、一个PCI-E Root Complex, CPLD主要监控和控制主板的不同功能,支持调试LED、蜂鸣器、CF卡、LCD以及后备电池等,CPU中心硬件基于IOP81348结构进行开发。
2)磁盘通道控制器硬件
系统采用了CPU集成的8条SAS链路,磁盘通道SAS协议控制与管理由CPU内部逻辑实现,8条SAS链路分成两组,每组带宽为X4,每组通过一个SAS扩展器实现与8块SAS/SATA磁盘的互连,两组可以连接16块磁盘,SAS扩展器采用PMC-sierra公司PM8083 SXP SAS扩展器芯片,提供12 X 3 Gbps的扩展功能,这一部分基于PM8083扩展器芯片进行硬件设计与开发,功能较为独立。
3)连接到PCI-E Switch的功能硬件
主要包括PCI-E SWITCH、数据加密模块、数据解密模块、千兆网卡模块。
OI PCI-E SWITCH,系统CPU集成一个PCI-E1. 0的X8的Root Complex,通过PLX公司的PEX8632芯片实现PCI-E交换功能,让所有端点设备共享X8的带宽,当前,将PEX8632分成5个端口,上游X8端口直接连接到81348CPU的RootComplex;下游有4个端口包括两个X8端口和两个X4端口。
②数据加密模块,实现在写入磁盘之前将数据进行硬件加密的功能,将数据加密卡的所有硬件逻辑全部集成到主板中,继续采用PCI-E做为接口,该模块将占用PCI-E Switch的一个下游X8端口。
③数据解密模块,实现在读出磁盘数据之后将数据进行硬件解密的功能,将一期数据解密卡的‘所有硬件逻辑全部集成到主板中,继续采用PCI-E接口,该模块将占用PCI-E Switch的一个下游X8端口。
④千兆网卡模块/HCA卡,采用Intel 82575千兆以太网控制器作为iSCSI主机端口,82575芯片提供两个千兆以太网端口,该模块将占用PCI-ESwitch的一个下游X4端口。
4.1.2软件组成
软件按功能分成系统引导固件与操作系统、磁盘阵列功能软件等3个部分。
1.系统引导固件与操作系统:系统加电首先执行的一段微码(Redboot),有些类似PC机的BIOS,主要完成系统硬件的自检和资源分配,包括CPU,平台、MMU的初始化、中断向量和异常的初始化、输入输出设备初始化等,最后加载操作系统并把访问控制交给操作系统,目前RedBoot除了支持引导功能外,还提供调试、Flash烧写,支持串口、网络下载,操作系统采用商用嵌入式Linux,在此操作系统中还将增加盘阵系统管理所依赖的动态库和命令包,当前操作系统压缩存于Flash中,RedBoot引导完成后,CPU执行操作系统压缩文件,自动解压到内存中后,操作系统开始执行。
2.磁盘阵列功能软件:实现磁盘阵列所有存储、加密、管理等功能的软件模块。
磁盘阵列功能软件如图3所示,主要由iSCSI/HCA接口模块、数据加解密、备份容灾、LVM卷管理、RAID功能模块、磁盘管理模块、中央管理程序、系统监控与管理等部分组成。
图3 软件组成结构图
1)中央管理程序:负责整个存储系统的数据流与任务的组织、协调,包括SCSI命令的队列管理,数据传输控制、数据加解密等调度管理,以及数据缓存管理等。
2)iSCSI接口模块:遵循iSCSI协议规范,拆卸、封装iSCSI包,接收、分析iSCSI命令,完成数据的传输。
3)数据加解密模块:数据加密、解密硬件卡的驱动和管理程序,包括数据加密、数据解密的功能实现、密钥管理以及内核态的API接口实现等。
4)备份容灾:包括快照、容灾和本地备份恢复等功能,其中,快照建立在LVM卷基础上,采用PIT(时间点)和COW(写时拷贝)技术,减少了常规备份在空间和时间上开销。
5)LVM卷管理:建立在RAID块设备基础之上,主要实现卷的灵活配置与管理,容量动态删减等。
6)RAID功能模块:实现各种RAID功能的管理,包括数据的组织与分条、校验数据的生成、RAID1,3,5,6数据的初始化、重构(Rebuild)、同步、基于ADMA引擎的XOR管理等,该模块将底层的一个或多个SCSI块设备组建成一个RAID块设备。
7)磁盘管理模块:主要是CPU内部集成的SAS控制器SCSI驱动程序isc813xxx,通过该驱动模块实现SAS/SATA磁盘管理、磁盘监测以及介质扫描等功能。
8)系统配置与管理:负责整个系统的配置与管理,包括各个模块的参数动态配置,逻辑磁盘、物理磁盘的管理与监控,系统外围环境的监控、WEB服务器、监控管理C/S代理等。
4.2软件数据流程
图4为存储系统在加密功能使能情况下的数据流程图,流程主要包括以下几个部分:
基于iSCSI协议数据以明文的形式从网络中接收或发送到网络中,iSCSI数据接收与发送的过程中包括iSCSI数据包的分组与封装。
从iSCSI主机端口写入的数据存入到明文写Buffer中,需要读入的数据在发送前存入在明文读Buffer中,两种Buffer由中央管理程序统一管理,Buffer中数据均以明文形式存在。
图4 数据流程图
缓存管理程序使用缓存淘汰算法管理Buffer,回写数据第一步操作是将回写的数据进行数据加密后并存入到密文写Buffer,加密后的写数据经过LVM, RAID两个虚拟设备层后最终写入到物理磁盘中,其中写磁盘操作由RAID卡完成,物理磁盘中存放的数据均是密文。
从物理磁盘中读出数据,经过RAID, LVM虚拟设备层的数据拼接写入到密文读Buffer,再经过数据解密将明文数据存入到明文读Buffer,供主机端口进行数据发送。
在加密功能禁用的情况下,系统将不提供密文Buffer,所有数据都存入到明文Buffer中,并直接流向LVM或直接从LVM中流出。
RAID块设备由RAID功能模块程序实现,以MI)块设备形式存在,所有操作需要系统的CPU管理。
RAID块设备底层为SAS磁盘控制器管理,以SCSI块设备形式存在物理磁盘。
4. 3数据加解密
数据加密有两个关键因素,一是数据量大,二是传输速度快,结合盘阵的硬件分析,比较灵活的处理方式采用PCI-E加密卡,具有扩展性,接口适应高速处理的需要,目前采用基于PCI-E X 4总线,总线接口速度(DMA方式)为5 Gbps。
1)硬件组成
为了实现更高的处理速度,密码算法需要进行适当的扩展,采用硬件的方式如FPGA或专用芯片等;处理器用来管理密码算法和密钥、以及与盘阵处理软件进行交互协议处理;密钥接口可以支持密钥的证书管理等相关操作,还设计密钥销毁开关,以备应急之需,如图5所示:
图5 加密硬件组成
2)软件组成
为了提高处理速度,数据包的封装需要尽可能简单,有效数据占有协议内容的绝大部分,一次传送的有效数据至少在2KB以上;操作方式定义是为了给加密卡置初态,使加密卡根据应用的需求完成对数据的处理;状态查询确保对单块加密卡进行正确的操作或对多块加密卡实施有效的调度,保证任务的均匀分配和监管设备的正常运行,如图6所示。
3)密码算法
密码算法采用参数分割方式,以适应不同部门的应用需求;密码算法具有可扩展实现。
4)加密卡功能
系统能够实现数据的加解密;支持密钥的证书管理并适应其他管理方式;支持应用对加密卡的初始化;具有密钥的销毁功能。
图6 加密软件组成
5 结束语
信息包含着价值,是社会的财富,有了高可靠性、高可用性、高性能、安全可扩展的海量存储系统,将极大的保护社会的信息和社会的财富,促进社会的进步,“存储你的信息就是存储你的未来”,这充分表明了信息存储在当今乃至未来社会中所起的举足轻重的作用,信息存储市场广阔,目前网络存储和技术发展迅猛,如IEEE SSSWG,T10 Technical Committee,SNIA, IETF等组织正逐步制定了较为齐全的参考模型、几乎覆盖了当今所有的I/ O存储接口标准协议和网络化存储的体系架构,业界对网络存储主要开展如下研究:高效率、智能化信息存储生命周期管理、虚拟化网络存储、对称/非对称异构平台存储网络体系结构、基于数据稳健网络存储共享机制和容灾机制、网络存储安全和可信存储标准、下一代网络存储和管理标准、网络存储服务质量、无线存储网络、数据网格、云存储等,在我国信息化征途中,只有真正掌握可持续发展并有自主知识产权的网络存储产品,才使保障信息安全和数据可信存储有了坚实的基础,我国是一个存储部件和系统的消费大国,在未来几年中,我国信息存储需求规模将以60.6%的年复合增长率快速增长,金融、电信、电力、石油、遥感、国家安全机构等战略部门以及教育、医疗等社会服务机构均需要可以支撑海量数据信息的处理、分析和保存的高端存储系统和平台,我国正在信息化征途上迈进,政府、银行、电信、医疗、教学、传媒、石油、地质、气象、科学研究、国防乃至日常生活与信息存储与服务有不解之缘,急剧增长的信息迫切需要海量存储与服务系统,迫切需要有自主知识产权、安全可靠的网络存储系统。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:安全存储部件研究