文章编号:1008-0570(2010)06-1-0196-03
《微计算机信息》(测控自动化)2010年第26卷第6-1期
基于集群技术的海量数据存储技术研究
Researchofmassivedatastorageinclustertechniquebased
(国防科学技术大学)
赵瑞峰汤晓安干哲
ZHAORui-fengTANGXiao-anGANZhe
摘要:随着卫星遥感技术的发展,信息存储系统数据规模呈TB级迅速增长,如何有效存储与管理这些数据已成为亟待解决
的问题。本文根据海量数据特点,引入集群技术,设计了由应用服务器集群、数据库服务器集群和信息存储集群组成的多级集群系统架构,并通过实验验证了集群系统具有可扩展、负载均衡和故障转移等特性,在实现数据存储海量化的同时,提高了系统稳定程度,对信息系统具有重要作用。关键词:集群技术;海量数据存储;OracleRAC中图分类号:TP392文献标识码:A
技术创新
Abstract:AsthedevelopmentofSatelliteRemoteSensingtechnique,thedatasizeofinformationstoragesystemsisrapidgrowingbyTB-level,howtoeffectivelystoreandmanagethemhasbecomeaseriousproblem.Accordingtothecharacteristicsofmassdata,thispaperintroducestheclusteringtechnology,anddesignsamulti-levelclustersystemarchitecture,thatcomposedbyapplicationserverclusters,databaseserverclusterandinformationstoragecluster.Thendoaverificationexperimentoftheclustersystemhasthescala-bility,loadbalancingandfailoverfeatures,atsametimeofachievingmassivestorage,thiswillimprovethestabilityandplayanim-portantroleintheinformationsystems.Keywords:clustertechnique;massivedatastore;OracleRAC
1引言
随着卫星遥感技术的发展,战场监测手段日趋多样,未来的信息系统应当能够实时地将各种复杂的战场态势信息以图形图像的形式直观地表现出来,这些态势信息不仅包括大量的遥感影像数据,还包括军事目标、军事行动、友军、敌军、中立、设施的位置、进展、状态和分布等数据,这些数据统称为战场环境信息。战场环境信息具有容量巨大、来源多样、更新频繁等特点,如何有效的存储与管理这些数据,使其满足作战应用高可用可靠的要求,是推进信息化建设的重要技术保障。
在海量数据存储方案上,网络存储已成为共识,当前常见的网络存储方案有网络附属存储(networkattachedstorage,NAS)和存储区域网络(storageareanetwork,SAN)。美军在网络存储研究上走在各国前列,比较典型的应用有美国海军奈普逊(Naptheon)SAN系统,美国陆军任职指挥部(TheU.S.ArmyAccessionsCom-mand)SAN系统,以及美国空军战斗气候学中心(TheAirForce
而我国在网络存储领CombatClimatologyCenter)NAS存储系统。
域起步较晚,军事领域的应用更为鲜见。从国外发展来看,网络存储系统复杂研发周期长,且存储设备一次性投资高,随着软硬件技术的快速发展,原有设备被迅速升级换代,难以满足新的应
本文将集群技术引入海量数据存储,该技术是通过高速用需求。
网络互联并以单一系统模式加以管理的计算机组合,集群具有良好的可扩展性、高度的可用性、负载平衡性和并行运算高效性等特点,文中设计了多级集群系统架构,并通过实验验证了集群系统的各项特性。
赵瑞峰:硕士研究生
基金项目:基金申请人:汤晓安;基金颁发部门:国防科工委
2集群技术
集群技术是目前计算机系统设计中最热门的技术之一。简单来说,集群即松散耦合的一组计算机,其中每一台计算机称为集群中的一个节点(Node),这些节点通过高速网络连接起来,统一作为计算机资源工作,对外部世界形成一个透明的系统映像。理想状态下,用户几乎完全感觉不到集群系统底层的节点,在他们看来,集群是一个系统,而非多个计算机。集群系统中的两个或多个节点通过相应的硬件及软件实现互连,每个节点都是运行自身进程的服务器。这些进程间可以彼此通信,对客户机来说就形成了单一向用户提供应用程序、系统资源和数据的协同系统。除此之外,集群系统还可以采用向集群中增加服务器的方式,增强整体处理能力,同时集群系统还具有故障转移的能力,通过系统冗余提供集群固有的可用性和可靠性。
集群存储是集群技术的另一广泛应用领域,集群存储系统是高速互联的一组存储节点,与分布式存储一样,系统将数据分散地存储在多立的设备上,而且集群中的设备既可以运作,相互之间又可以合作,每个存储节点不仅可以访问本节点的存储空间,还可以访问其他节点的存储空间,所有节点的空间以一个虚拟磁盘的方式提供给客户端用户。集群存储具有容量可扩展性、性能稳定性及系统可管理性的优势,使其非常适合那些持续增长存储规模的不同环境,实现即时供应(Just-in-time)存储,避免破坏性升级和增加管理的复杂性。使用集群存储解决方案可以获得可扩展性和高可用可靠性,系统易于维护,具有非常高的整合带宽等优点。集群存储最典型的应用是Google体系结构,它是大量计算机内置硬盘的组合,含9个机架(每架80台PC,每台PC有2个硬盘),共79,112台PC机,有158,224个硬盘,总容量为6180TB。
《现场总线技术应用200例》
(项目名称和编号不公开)
-196-360元/年邮局订阅号:82-946您的论文得到两院院士关注软件天地
设备(如磁盘阵列RAID)和服务器连接起来的专用存储系统。SAN以数据存储为中心,采用可伸缩的网络拓扑结构,提供SAN内部任意节点之间多路可选择的数据交换,并且将数据存储管理集中在相对的存储区域网内,实现最大限度的数据共享和数据优化管理,以及系统的无缝扩充。从实现上来看,对比价格昂贵的光纤通道(FiberChannel,FC),以IP网络实现的SAN更具潜力。NAS或SAN提供了数据存储的不同形式,且两者间界线越来越模糊,而集群存储更偏重于提高并行及整体性能,它们间并不属于从属关系,而是实现不同存储需求的解决方案。
3多级集群系统架构
战场环境信息复杂多样,数据来源广泛更新频繁,数据量巨大,特别是遥感影像数据呈海量规模,同时对数据稳定性和系统可用性要求极高。集群技术非常适合海量数据存储系统,综合运用服务集群和存储集群可提高系统整体可扩展性和可用可靠性,这在复杂多变的系统应用中极为重要,多级集群系统架构如图1所示。
'
图1多级集群系统架构图
3.1应用服务器集群
战场信息系统是未来信息战的核心,要求服务器能够高效可靠地并发处理各个用户的请求,保证畅通的通信访问,在应用服务器中引入集群,支持单点登录、集群管理,在集群中设置主控服务节点进行负载均衡和故障转移,使各用户的请求均衡分配至应用服务器,并通过应答轮询检测故障服务器,实现服务高可用可靠性。国内外很多学者对动态负载均衡算法作了深入研
加权轮转调度法、最少究,常见的负载平衡算法有轮转调度法、
连接调度法、加权最少连接调度法等等。集群中每台服务器均提供一致的功能,整体向外提供透明的服务,用户不需要关心究竟连接到了哪一台应用服务器。
3.2数据库服务器集群
数据库服务器是数据存储的核心,对于海量数据存储,如何迅速便捷地查询与管理数据,并在网络有限带宽下实现数据的高效传输,以及保证服务的高可用可靠性是数据库服务器面临的主要问题。Oracle的真正应用集群(RealApplicationClusters,RAC)提供了数据库并行服务技术,将数据库服务与数据存储相互,实现了服务应用集群。RAC支持多进程并行访问,提供透明的应用可伸缩性,且能够提供系统均衡负载和故障转移功能。RAC应用了高速共享缓存融合(CacheFusion)技术,集群节点通过私有网络实现内联心跳,各节点通过共享缓存能够迅速有效地在集群各服务器上共享被频繁访问的数据,减少磁盘I/O操作。以此设计的数据库服务器集群结构见图2。
3.3信息存储集群
战场环境信息具有数据容量巨大,增长迅速的特点,单一设备难以满足其存储容量要求,并且随着数据时空综合特性需要的提出,存储容量需求将迅速增大,要求存储环境具有良好的可扩展性,集群存储正适合这种应用。
集群存储是网络存储方案之一,构成它的可以是网络附属存储或存储区域网络。NAS是用一个装有优化的文件系统和瘦操作系统的专用数据存储服务器,采用NFS(NetworkFileSys-tem)协议、CIFS(CommonInternetFileSystem)协议提供跨平台的文件共享功能。SAN是通过专用高速网将一个或多个网络存储《PLC技术应用200例》
图2数据库服务器集群结构图
4系统实验
4.1实验系统组成
结合前文系统架构,本文以某战场信息系统为背景,采用Oracle集群技术和空间数据库引擎(SpatialDatabaseEngine,SDE),设计了基于集群技术的信息储存实验系统。其中,数据库服务器集群由三台PC计算机组成,初始连接两台,测试集群扩展性时接入第三台,PC机使用单CPU,操作系统为Windows2003Serve,主频2.4GHz,内存512M,配有双网卡及SCSI接口卡;信息存储集群由两块8.0GB的SCSI磁盘组成。实验系统结构如图3所示。
技术创新
图3实验系统结构图
4.2数据存储结构
实验系统存储了大量遥感影像数据、DEM数据及其他数据,系统采用美国地理信息研究机构ESRI推出的ArcSDE空间数据库模型,并将其存于Oracle数据库中。ArcSDE是数据库服务器与应用间的中间件,它面向空间数据管理应用提供了统一的专业技术支持,使空间数据便于管理与维护。系统中,遥感影像数据采用瓦片金字塔模型进行数据剖分,剖分后的栅格数据由ArcSDE管理并存入Oracle关系表。
邮局订阅号:82-946360元/年-197-
软件天地
4.3系统特性测试
集群技术引入海量数据储存系统,可增强整体系统的可扩展性、负载均衡性和系统故障转移等功能,实验主要针对这些特性进行测试,测试方法及结果见表1。
表1实验测试内容
《微计算机信息》(测控自动化)2010年第26卷第6-1期
(上接第176页)(2)将每个分叉点的欧式距离从小到大排列,并求出每个分叉点的三个夹角,设置其访问数组;
(3)如果某一对分叉点对应的欧氏距离之差不超过某个阈值,同时,三个夹角对应的角度之差也不超过某个阈值,则认为该对分叉点是一对匹配点对,并设置已经访问标志,防止重复匹配;(4)统计匹配点对,如果超过某一个阈值,则认为匹配成功;否则,匹配失败。
5试验结果和结论
用FVC2002DB1中200幅指纹图像进行实验,得到的实验结果识别率是93%,误识率是3.6%,拒识率为3.4%。该改进的基
综合可见,实验集群系统能够提供以上功能,这些特性在信息系统中具有重要的作用,有效提高了系统扩展能力与可用可靠性。
于分叉点夹角和欧式距离的指纹匹配算法,虽然较普通的基于分叉点夹角和欧氏距离的匹配算法在执行速度上有所下降(在CPUPIII733,内存128M的环境下,该算法一般耗时为0.532s左右,而普通的基于分叉点夹角和欧式距离的匹配算法耗时约为0.457s左右),但是,识别的精度有所提高;而且,算法的复杂度,较基于点模式的匹配算法也有较大优势。存在的问题是,如果模板指纹图像和待识指纹图像之间的重复的区域太小的话,会对提取指纹结构信息区域的选择产生影响。
本文作者创新点为将指纹的细节特征结构与基于分叉点的算法相结合,成功地去除伪特征点、消除特征点偏移,提高了匹配的精度。参考文献
[1]范俐捷,王岩飞,高鑫.一种新的基于灰度的图像匹配方法.[J].微计算机信息,2007,10-3:296-297
[2]HrechakAK,MchughJA.AutomatedFingerprintRecognitionUsingStructuralMatching.PatternRecognition,[A],1999,16(8):3~904
[3]回红.基于结构的指纹表达及其匹配算法研究,杭州:浙江大学,[D].2002
[4]黎妹红,张其善.基于结构特征比对的指纹识别方法.遥测遥控,[D],2004,24(24):50~53
[5]李晓昆.基于结构特征的指纹识别.计算机工程与科学,[D],1999,2(2):25~29
[6]回红,陈祥献,周乱等.Gabor函数实现基于结构的指纹识别.浙江大学学报(工学版),[D],2004,6(6):712~716
[7]刘元宁,苑森森,朱晓冬等.指纹识别中的一种基于几何结构的匹配算法.仪器仪表学报,[D],2001,6(3):57~60
[8]刘元宁,苑森森,朱晓冬等.具有结构化方向信息和特征点检测指纹分类算法研究.高技术通讯,[A],2001,9(3):3
作者简介:韩键(1985-),男(汉族),中国矿业大学计算机学院在读硕士,研究方向:图像匹配;苏晓龙(1955-)男(汉族),中国矿业大学计算机学院副教授,博士,研究方向:嵌入式系统;王香婷(1952-)女(汉族),中国矿业大学信息与电气工程学院教授,学士,研究方向:嵌入式应用技术。
Biography:HANJian(1985-),male,master’sdegreeinread-inginCUMT’sScienceandTechnologyofComputerSchool,en-gagedinresearchofimagematching.(221116江苏省徐州市中国矿业大学)韩键苏晓龙王香婷
通讯地址:(221116江苏省徐州市中国矿业大学南湖校区计算机学院计硕07班)韩键
(收稿日期:2009.08.05)(修稿日期:2009.11.05)
5结论
随着卫星遥感技术的迅速发展,对数据存储能力的要求日
技术创新
益增强,海量数据的储存与维护、查询与传输、更新与管理的持续发展,需要信息系统具有良好的可扩展性和可用可靠性,集群技术正适应了这种需要。本文设计的多级集群系统架构,分层分级地提供了系统可扩展性和高可用可靠性,是信息系统设计的一个有效方案,文中通过实验验证了多级集群系统架构可行性,证实集群技术的扩展能力、负载均衡能力和故障转移能力在信息作战保障中的重要作用。集群技术应用于战场信息系统是各国发展的重要方向,面对世界新军事变革,集群技术的广泛应用还需要进行大量的研究。
本文作者创新点:作者针对海量战场环境信息特点,将集群技术引入其存储系统,设计了多级集群系统架构,有效提高信息系统可用可靠性。参考文献
[1]DoreenI,Oalli.DistributedOperatingSystemsCon—ceptsandPractice[M].Beijing:ChinaMachinePress,2003.
[2]邵佩英.分布式数据库系统及其应用[M].北京:科学出版社,2005。
[3]陈吉平.Oracle高可用环境[M].北京:电子工业出版社,2008。[4]严志民,刘任一,刘南.基于群集技术的多服务器地理空间数据管理[J].浙江大学学报(理学版),2004,31(6):690-700。
[5]古俐明.集群服务器负载均衡技术研究[J].微计算机信息,2007,4-3:112-114。
作者简介:赵瑞峰,男,1981-,汉族,山西忻州人,硕士研究生,主要研究方向为图形图像处理与模式识别。
Biography:ZHAORui-feng,1981-,male(theHannationality),XiZhouShanXi,master,ResearchareaisGraphicsimageprocess-ingandPatternrecognition.(410073长沙国防科学技术大学电子科学与工程学院)赵瑞峰
汤晓安干哲
(CollegeofElectronicScienceandEngineering,NationalUni-versityofDefenseTechnology,ChangShaHunan,410073,China)ZHAORui-fengTANGXiao-anGANZhe
通讯地址:(410073湖南长沙国防科学技术大学四院五队)
赵瑞峰
(收稿日期:2009.07.06)(修稿日期:2009.10.06)
-198-360元/年邮局订阅号:82-946《现场总线技术应用200例》
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- jqkq.cn 版权所有 赣ICP备2024042794号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务