畅享博客 > expresscluster > [原创]远程容灾解决方案
2009/10/27 16:01:38

[原创]远程容灾解决方案

保持连续地、不间断地访问数据和应用业务的重要性已经是众所周知。在现代商务活动中,”Availability”(高可用)已经不单单只是一个单词,它已经变成了IT系统建设中非常重要的一环。随着网络和计算机应用的快速增长—不仅是通过网络访问数据而且还通过网络访问业务应用系统—"Availability" 已经被赋予了全新的含义,它已经变得越来越重要,不仅仅只用于保护您的数据安全,更可保护那些允许用户交互访问的业务应用程序。由于自然灾害或者恐怖袭击而导致的本地硬件的设备故障,造成关键业务系统宕机,这将引发一个企业或机构的金融灾难。因此,选择合适的异地备份中心并拥有一套健全的远程灾难恢复解决方案,当本地发生灾难时,关键业务和数据能够在异地备份中心重新正常运行并提供关键业务系统的业务连续性服务,这将变得越来越重要。

      本资料讨论了NEC提供的远程灾难恢复解决方案,以及如何为各企业最大限度的减少由于灾难事故引起的本地关键业务系统瘫痪而造成的重大的损失。

保护关键业务信息

      在一些行业中,当基干业务系统发生宕机故障时,每小时所损失的费用可达到成百上千万美元。以金融服务行业为例,跟金融业务相关的关键应用或者在线的信用卡交易活动因为系统的宕机故障而每小时损失数百万美元。

 

 各行业宕机损失

 

关键应用                                       

 每秒损失费用                                    

呼叫中心 $27,000

数字移动 $14,400 

ERP $13,000

供应系统管理 $11,000 

电子商务 $10,000

网络银行 $7,000

通用个人服务 $6,000  

客户服务中心  $3,700 

ATM/POS/EFT $3,500

电信 $1,000

来源: The Standish Group International, Inc. © 2001

 

 

 

美国的9.11事件以其巨大的灾难性后果被人们永远铭记在心,这次事件把灾难恢复这个概念提到了IT业界的显著位置。另外,这次事件对长期以来形成的对IT系统的依赖性造成了巨大的潜在冲击。

      基于上述的理由,如今,灾难恢复已经成为企业管理者们必须考虑和重视的一个首要问题。最近的调查显示,超过50%的来自制造业的管理者们主动考虑要进一步提升本企业的灾难恢复系统的有效利用,以使自己的企业更好的立足于新年度的发展。当本地计算机系统被破坏时如何保护关键业务数据,并且确保其职员能继续使用这些数据以使业务继续运行,这是摆在IT决策者面前的一个巨大的挑战。

      为解决上述问题,NEC提供了一套全面高效的灾难恢复解决方案,为企业关键业务系统的持续运转提供了坚实的基础。

 

灾难恢复解决方案

      在介绍NEC的解决方案之前, 有必要先简单介绍一下近几年逐渐成形的适用于中小型企业的两种灾难恢复解决方案: 远程数据复制方式和集群方式。

      远程数据复制方式是通过把本地数据定期复制到异地备份机上的方法来实现的。远程数据复制方式比之本地服务器直接连接到磁带机上导出数据并且再把该磁带机上的数据备份到别的服务器上,或者直接用盘对盘对拷的方式来备份数据等这些古老的备份方法来说,是一种更加成熟有效的解决方法,在灾难事件中, 当灾难恢复、主机系统被修复以后,备份机上的数据可以被重新导入到主机系统中。以上这些解决方案相对而言成本比较低廉,但只能用于保护数据,而不能保护业务应用程序,并且恢复时间相当长。此外,对于那些每天处理成白上千条数据的基干系统来说,很有可能发生以下致命问题:从最后一次执行定期数据备份到灾难发生之前这段时间内的新数据都丢失了。

      集群方式是通过集群软件把两台异地放置的服务器连接起来形成集群而实现的。这两台服务器共享相同的数据。当主机所在地发生灾难时, 主机上运行的应用程序和用户数据都被切换到了异地的备机上了。为了使集群系统恢复到"容灾"状态, 宕掉的主机系统必须尽快回复到集群之中。

      集群方式的优势显而易见,它不仅可以保护数据,还可以保护业务应用程序,灾难发生后确保业务应用程序也被切换到异地的备机上,并且用户在极短的时间内即可恢复对业务应用程序的访问。但是, 这种方式也有一些缺点。首先,为了最大限度获得集群的高可用性,所有应用程序必须具有”集群意识”——例如:它们必须被设计成适于在集群环境下运行——这就限制了企业对这些应用程序的使用。其次,集群系统相较于单机系统,无论是系统的部署还是管理都更加复杂和困难,并且故障恢复后,数据和业务应用程序的回切工作也跟初始配置一样工作量很大,因而,需要投入更多的IT资源。第三,当前那些可实现远程镜像同步解决方案的集群软件普遍都存在距离限制,一般都只能连接24英里范围内的2个站点——这对于要求完全隔离两个站点以防一个站点发生灾难而另一个站点也受到波及的需求来说,这个距离是远远不够的。最后,一个最大的挑战就是企业IT部门要部署一个灾难恢复系统的话必须面对高度复杂的软硬件部署、配置等问题,一套典型的灾难恢复解决方案的部署涉及到多家厂商的技术、产品、服务及各种软硬件配置。

 

NEC的解决方案

架构/概览

      NEC提供了一套独具特色、更符合成本效益的灾难恢复解决方案,它采用荟萃NEC技术精华的容错(FT)服务器——当今市场上唯一的不需要借助集群技术而提供本地硬件全冗余、支持两层持续监控、自动切换配置的服务器系列,提供了强大的本地硬件故障保护,并确保数据和业务应用程序得到双重保障——首先是本地恢复其次通过WAN实现远程灾备。该方案在远程的两处地点各自部署一台NEC Express5800容错服务器和NEC S1300存储设备,每台服务器上都部署了用户要求的业务应用程序。在正常状态下, 用户使用主机系统上的业务应用程序进行业务处理。

      采用NEC的灾难恢复容错解决方案(简称FTDR), 用户数据被持续同步保存在两个站点的服务器上,每一份写入到主站点的数据都通过两个站点之间直连的网络链路被同时写入到了远程的备份站点的服务器上。在灾难事件中,如果一方站点的服务器上的数据和业务应用程序被破坏,另一方站点将自动接管数据和业务应用程序并继续运行业务系统,对用户来说,可不受影响地继续使用备份站点上的业务系统,从而达到了企业关键业务系统的永续运行。

      当灾难过后, 被破坏掉的站点的主服务器恢复以后,容灾系统将自动把远程备机上的最新数据重新同步到主服务器上。一旦这种同步过程完成以后,用户就可以继续恢复对主站点服务器的访问和操作了。

      该解决方案克服了远程数据复制方式只能保护数据不能保护业务应用程序的缺点,最大限度的减少了系统宕机的时间,从而确保了用户对业务系统的持续性访问和操作。

      NEC的解决方案同样也克服了集群方式的缺点,它不同于传统的集群模式, NEC的解决方案不需要部署的业务应用程序具有“集群意识”, 因此可使企业IT部门轻松部署任何适合顾客需求的业务系统。这套方案比之传统的集群模式,更加易于部署和管理。并且,在适合的带宽和时间延迟条件下,它能支持几百英里甚至更远距离的两个站点之间的远程容灾,远胜于传统集群模式下的24英里的距离限制。业务系统从备机往主站点的主机上回切也非常方便,用户只需要简单的重新登陆即可重新使用了。

      NEC的这套整体解决方案包含了远程容灾系统所需要的完整的软硬件产品和服务,为企业全面提供高效、经济的容灾系统。

 

系统需求

      每台容错(FT)服务器之间必须部署2个网络连接——一条用户正常的网络通信,另一条称为”Interconnect”的网络连接用于保持远程2台服务器之间的数据同步。 Interconnect必须是一条传输速率达到T1的专用WAN,根据带宽和时间延迟的不同,这两个站点之间的距离在几百英里之内。如果可以接受增加时间延迟的话,也可以达到更远的距离。每台FT服务器必须连接一台S1300存储设备用于数据的存储和归档;这2台服务器在VLAN环境中必须共享相同的“虚拟计算机名”和”虚拟IP地址”。

      对于那些终端用户集中在一个站点的企业来说, 可把集群配置成"active/passive"模式, 在本地站点配置一台FT服务器作为主机,在远程的备份站点配备一台普通的服务器作为备机即可。在这种配置模式下,两个站点之间的数据依旧保持实时同步,并且当发生灾难性故障后,本地用户可使用远程备机上的最新数据和业务应用程序继续进行业务处理。在正常状态下,本地用户不用访问远端的备份机,从而大大降低了对远端备份机的性能/成本方面的配置需求。

 

硬件

      在FTDR容灾方案中采用的硬件是NEC Express5800/320Lb容错(FT)服务器。这种服务器不采用集群技术即可提供全面的硬件冗余。每台容错服务器配置了双CPU、双芯片、双内存以及两套PCI I/O硬件——所有这些硬件都由服务器本身的检测进程进行故障监视, 当检测到某个硬件故障时,会自动切换到跟这个硬件配套的冗余硬件上继续运行。这种全冗余配置避免了所有的单点故障,并且CPU达到了零故障切换时间。FT服务器的这种冗余组件设计和远程管理的特性为企业提供了简便的维护和高达99.999%的可用性(例如:每年只有5分钟的宕机时间)——相较于集群方式提供的99.99%的可用性来说是一个显著的进步(每年超过8个小时的宕机时间)。同时,FT服务器不同于集群,它只需要OS(Microsoft Windows 2000 Advanced Server, Microsoft Windows 2003 Enterprise Edition)和应用程序的一套copy即可,软件成本大大降低。对企业来说,FT服务器只需要较低的成本即可实现集群方式的优势。

      在该方案中,另外一个硬件配置就是S1300存储设备。与FT服务器类似, 这款光纤通道盘柜也提供了整体的冗余配置,包括双I/O通路、双RAID和高速缓存控制器、双电源设备块和电池,以及所有数据保护。每个扩展柜可存储4TB容量的数据,可满足大多数企业的容量存储需求。

 

软件

      FTDR方案通过NEC EXPRESSCLUSTER软件轻松实现了异地两个站点之间的数据同步、故障切换和回切功能。NEC EXPRESSCLUSTER软件是市场上唯一可与容错服务器实现无缝联动的高可用集群中间件软件,实现了对2台服务器的同步写入操作,当灾难发生时可使用户迅速恢复对业务系统的访问和操作,也可根据需要使主机系统上的业务系统切换到异地的备机系统上,并且当故障主机恢复后,使数据自动进行重新同步。EXPRESSCLUSTER可自动区分“灾难”,例如:需要执行故障切换的重大硬件故障。轻微的硬件故障可在本地利用容错服务器和S1300存储设备的内部冗余配置进行恢复即可。正是由于这种对灾难的区分能力以及支持几百英里的远程连接距离,EXPRESSCLUSTER在当前的市场上具有非常亮眼的特色和优势。

 

服务和培训

      FTDR解决方案的第三个重要的元素是服务。通过接受过高级培训和认证的工程师,可向客户提供全面的安装和配置服务,以及为客户的IT部门提供现场培训和相关的系统维护和恢复手册。根据不同客户的需求,可提供不同级别的技术支持。

 

摘要/总结

      NEC是在美国首家通过充分测试、验证的容错灾难恢复解决方案提供商,它支持数据通过专用WAN同步写入到两个站点的服务器上——由此为关键数据和业务系统提供全面的安全保护,它提供了一套完美的容灾解决方案,真正达到了99.999%的高可用性,当灾难发生时,容灾系统可自动进行故障切换,也可在短短几秒之内完成灾难恢复,确保业务处理的完整性。NEC提供价格合理的完整的安装、部署以及支持服务。该方案既可适用于用户分别分散在两个站点的企业(Active/Active工作模式),也适用于所有用户集中在一个站点的企业(Active/Passive工作模式),也就是说,对任何企业和机构来说,该方案都非常优秀。    

EXPRESSCLUSTER专业的高可用集群软件 



查阅更多相关主题的帖子: 远程容灾 高可用 集群 解决方案

评论

有没有厂商呢?

国内的?

发布者 haonan3344
2010/3/24 20:46:55


您还未登录,不能对文章发表评论!请先登录