您会怎样为一个全世界最大的SAN制定灾难恢复计划?超过64PB的存储,上百人服务器,50多万的用户,这就是为美国海军内部网络(Navy and Marine Corps Intranet ,NMCI)服务的IT小组面临的挑战.
这个项目的资深顾问,计算机专家Akira Robinson在出席纽约的Storage Decisions活动时说:"这个项目目前可能是世界上最大规模的存储系统.""每个用户都拥有100MB的存储,并且还有50MB的交换空间."这个宏伟的内部网络为450000海军和海运人员以及它们的分支机构中(属于美国军事人员)的文职人员提供基于Web通讯结构体系.
EDS公司是这个价值90亿美元项目的主要承包商,这家公司在它的网站上将这个项目描绘成"全世界最大的,最安全的专用网络."通过一连串的性能与付款争论,去年,海军部门延长了EDS的合同,交易期限到2010年.
由戴尔公司提供NMCI的存储结构体系,不过Navy and Marine Corps的数据要求已经从七年前项目开始时的2000TB增长了许多.
Robinson解释说:"有一个支持这些的SAN,我们可以成功地利用NAS."这个硬件分布在Norfolk,圣地亚哥和珍珠港三个网络运行中心(network operation centers ,NOC),并且遍布世界各个部署了上百个服务器的工作站.
刚刚进入这个项目一年时,Robinson和的工作团队就遇到了一次危机,当时,一场雷暴阻碍了维吉尼亚诺福克的一个服务器工作站的电力供给.他说:"当这场灾难发生时,我深深体会到了灾难恢复的重要性."
尽管只有极小部分的用户受到这次停电的影响,但是当电工到达,排除故障,重新送电后,这个负责人已经意识到他必须重新评定这个机构的DR计划.因为配电盘还与工作站的空调装置相连,但电工拒绝接触它.
Robinson说:"到负责空调设备的人员到达时,我们又中断了六个小时.""这使我们明白一个道理,那就是你必须对你拥有的一切了如指掌."
为了加强系统的灾难恢复,目前,NMCI项目主要依靠IT Infrastructure Library (ITIL)架构.ITIL,现在变得越来越流行,是一组最好的覆盖应用管理,安全与IT服务的技术.Robinson解释说:"实际上,需要控制IT环境的复杂性与多变性,ITIL恰恰满足了这个需要,而且ITIL还可以帮助提供存储管理.
为了说明这一点,Robinso解释了NMCI项目如何使用ITIL满足未来的存储需要.他说:"我们的很多用户向我们发出求助说他们用完了存储."机构的25个"梯队管理部门(echelon commands)"的人员目前正在考虑分布式文件共享(DFS),集中式存储,加强网络为中心的方法是否能够解决这个问题.
负责人们将采用ITIL标准检查选择的用于Navy and Marine Corps现有体系的解决方案是否合适.Robinson说:"这是一个在美国军队和Procter & Gamble都获得成功的结构体系,它是唯一一项获得所有人赞成的技术.
尽管ITIL在英国开发,但许多著名的美国机构都部署了ITIL.这些机构包括通用汽车公司(General Motors ,GM),目前正在进行价值150亿美元的IT体系修建中.美国太平洋空军(U.S. Pacific Air Force ,PACAF)通讯与信息管理局( Directorate of Communications and Information),采用ITIL作为重建机构技术服务计划的一部分.
据Robinson说,为美国军方开发灾难恢复计划最重要的是注意最小的细节.他说:"例如,一群海军战士可能因为没有得到相关的证明信息,他们以为他们军中兄弟的生命处在危险中,他们不打算让这样的事情发生,因此他们来到变更控制部门.""他们非常认真地履行他们的职责,要求更改控制."
因为注意细节,在NMCI上,只有一次外部攻击获得成功.Robinson说:"在过去七年里,只有一次对我们的攻击成功,我们希望保持下去."他指的是2005年底闹得沸沸扬扬的黑客事件.
文/存储在线