西数超哥博客
运维经验教程分享

IDCC2018|ODCC金融专家组专家杨志国:应急管理在银行业数据中心的策略与实践

中国IDC圈讯  12月11日-13日,由中国IDC产业年度大典组委会主办,中国IDC圈、CloudBest承办的以“赋能企业数字化转型”为主题的第十三届中国IDC产业年度大典(简称“IDCC2018”)在北京国家会议中心隆重召开。

13日上午,IDCC2018分论坛,数据中心技术创新论坛正式召开!本次论坛邀请了行业内知名大咖和技术专家为大家带来当今数据中心技术创新内容的分享。

会上,ODCC金融专家组专家 原中国银行数据中心副总经理杨志国为大家带来了《应急管理在银行业数据中心的策略与实践》的主题演讲。以下为演讲实录(未经本人核实):

到了中午,大家比较困,确实知识量比较大,但是没关系,还有提神的时候。这本书马上要新发了,大家需要的话可以去签,IDC准备的量不少,听说有100多本。两本,姊妹书。
  
  前面两位,海峰老总加上德昌老总介绍了IDC的管理情况,特别是IDC的发展情况。德昌讲到了DCIM系统,他们在银行里推了200多家DCIM系统,非常不错。刚才讲的是怎么降低成本,这是关键,我也是经过研究,在银行搞IT30多年时间,老说银行是安全性、可靠性很重要,这是跑不了的。
  
  但是现在机房越来越大,成本也要关注了。机柜每年要耗费1亿左右,特别是北京的电费是988,现在银行利润也比较薄,特别是这些大银行,每年增长一个点就非常不错了,5%以下,以前银行利润是百分之几十,所以不能一味考虑安全性、可靠性,同时要考虑成本。刚才德昌说了,我们要向成本进发,今天在座的都是关注IDC建设运维的。
  
  现在银行业比较大,这是去年的数字,数据中心幼43万个,发展得非常快,但是我们增长的速度跟美国的增长速度相比要大,每年快10%左右。但是中国IDC规模不及美国的1/4,IDC的发展还有30年的时间,特别是5G来了以后,随着万物互联,不光是搞超大数据中心,以后就近下载信息数据的时候,可能边缘计算就出来了。十年以前我就说要有边缘计算,现在已经出来了,理论和基础都出来了。
  
  特别是5G,急需要边缘计算的出现,很多小数据中心分在各地发展,因为路径太长了,传输太贵了,可了不得。20年以前我在中国银行管全球2千万的电信租赁费,现在是20亿,10倍的价格增长,所以要考虑成本。
  
  现在银行业比较大,当然大不过双十一的交易量,但是银行是金融交易量,现在有8亿笔。现在世界上最大的银行在中国,交易量很大,摩根史丹利、花旗银行肯定没有中农共建交易量大。
  
  另外有五个中心,物理中心和互联网数据中心不一样,大量的逻辑交易、核心交易都会放在物理中心,传统数据中心跟它不一样。所以我们跟BAT相比,我们大型主机一台设备几十亿,但是我们也要发展X86。我去帮助营口银行规划方向,85%的系统都上云了,非常不错。
  
  还有银行数据中心搞IDC,数据中心要是宕机就完蛋了,所以要活着,活着是银行的本领,而且还要活得更好。什么叫活得更好?体验、效率、效益。体验不好、效率不好、效益不好,都没戏,但是网络带宽要好。所以怎么做?这都是我们需要考虑的。
  
  我们结合实际要做好数据运维,下面就进入主题,前面是铺垫。应急管理很重要,刚才海峰老总说,银行随着信息的散布,有30分钟以上的逻辑系统当即必须实名报委员会,面对面的汇报,30分钟以下的要做电话报备。所以很多应急管理怎么做?比如说地震、洪水、海啸都有应急管理。金融市场变化,9·11的时候很多银行就破产了,但是很多恢复得很快,也没什么影响。
  
  我们有8亿笔交易量,如果应急管理做得不好,或者网络崩溃、电源崩溃、系统崩溃、宕机,你怎么能快一些?特别是要速度快、范围广、程度大,有可能银行就要破产,一旦科技体系崩溃,这个银行肯定完蛋,如果灾备做得不好,应急做得不好肯定完蛋。
  
  《应急管理在银行的策略》这本书就出来了,管什么?怎么管?所有的系统,所有的环境,所有的运行,就管这些东西。怎么管?以前都是靠人去管,当然人是很重要的,可能我们要创新一些管理体系,扎实一些逻辑还有一些目标为导向,去智能化、自动化的发展,这是一个策略和方向。
  
  它的目标是什么?作为IDC来讲要快速、有效、有序。怎么能有效?大量的预案,还有覆盖率。我做了1800个预案,做完之后就是优秀的工程师了,有序处理,不能一团乱麻。
  
  我搞了个管理框架,应急管理体系的模型是通过5年研究出来的,应急预案和应急演练一定要做,为什么呢?我是海军出身,我是无线电的台长,我管电台车,在山里架天线,把发电机打开,3分钟的时间要跟北京通话,要演练。里面很多应急响应,现状评估、差距分析、改进计划、实施改进,这是一个闭环。
  
  事前、事中、事后书里都有,应急管理也要有三打纪律、八项原则。由于自动化监控,发现异常不瞒报,发现问题不推诿,这些书上都有。还有一些基本管理,一些联动措施。现在银行跟外面的联系非常多,你跟电力打交道,跟运营商打交道,跟各个厂商打交道,有很多联系,不是个孤岛。还有基本管理,建立一些升级方式、沟通机制。光外部接触的公司就有一千多个,包括跟股票市场、运营商等等打交道,都有沟通机制。
  
  应急管理是这样的情况,要完成制度的编写,把制度编完了,这些都要有。这个模型是很重要的,我们作为IDC集团有一套角色定位,没有角色不好处理,我们要有很多角色做落地。还有事件级别范围,有长时间要定下来。还有应急场所,我们有云端桌面,有显示系统,有电话系统,这些场所都是离不开的。还有一些监控的东西,自动化监控也是很重要的,有问题要自动暴出来。
  
  还有处置场所,还有服务受理场所,技术分析场所也都是需要的,以及演练,特别是演练以后要模拟。应急管理技术实践有哪些呢?主动运维是很重要的理论,书里面也说得很清楚,是可靠性为先的主动性维护,对TCO整个成本来说会降低。什么叫TCO?里面有三个成本。一个是资本之需,这是必要的,买设备。还有运维之需,包括培训安装。还有机会成本,就是故障发生了之后,做得正不正确。
  
  资本成本是30%,运维成本占50%,机会成本将近15%,举个例子,你们买个汽车,比如说20万,但是20万只占30%,还有70%是在运维成本和机会成本里。你撞车就是机会成本,不撞车就没用,你撞车买保险提高,所以机会成本要降低,这是很重要的一个方面。
  
  还有传统运维管理和主动性运维不一样,我们怎么降低机会成本,降低运维成本,是很重要的。一个车20万,运维成本要花30万,要买很多保险,做维护。
  
  我们编了1800多个应急预案,都是来自于这些系统方面的,把这些都放在系统里,比如说遭到攻击、断了等等都有预案,还有一些信息破坏,包括战争灾害,我们都有预期预案。
  
  应急管理离不开四个平台:应急预案管理平台、应急协作管理平台、运维流程管理平台、集中监控管理平台。怎么把它结合起来,也是考验我们功夫的。
  
  应急协作管理平台,内外怎么协作,怎么打通外部和内部,和运维中心和软件中心的协作关系。还有流程平台,要把所有流程自动化,这个很关键,我们的桌面里可以看到,来监控,事件来了怎么处置。还有监控平台,事情出来以后也是打通的,这四个平台都是相通的,这是我们自动化的系统。
  
  我举了一个例子,比如说个人理财WAS节点无法连接,9:12出现的,9:14启动应急,9:30找到应急预案,9:35业务验证,得到解决,我们用了23分钟,很快,这是真实的案例,如果你不解决的话,产生销售不出去,银行理财产品是上百亿的销售,这个影响很大。事黑怎么处置,这都是很清楚的,是一套逻辑范围。书里有189个预案在里面,你看了之后就知道怎么干活,非常管用,告诉你怎么做应急预案。
  
  在应急管理方面,银监会突发事件应急处置工作小组2016年有这样的要求,把常态应急管理和非常态应急处置结合起来,使事件尽量不转化为突发事件或小事不变成大事,最大限度划界不和谐因素,历史验证和现实表明,应急管理工作不可能一蹴而就,要持之以恒,久久为功,才能发挥重要作用。
  
  AI现在很火,现在我们搞智能的东西有100家公司,真正有几家公司实现了智能化?大家知道智能化的8个场景是必须有的,分析、判断、处理这些是必要的。做数据中心运维还是要适应新技术,管理经验千金不换。这里南征北战有句话可以借用,智能化就像大炮只能解决面上的问题,要像步兵一样解决实际战斗还得靠运维的实践经验。
  
  我一般就看三个图:系统逻辑图、物理布置图、业务流向图,这样才能落地,这本书的含义大概就是这样,今天因为时间有限,讲得不好,有意义的大家听进去,没意义的就一笑了之,谢谢。
  

赞(0)
声明:本站发布的内容(图片、视频和文字)以原创、转载和分享网络内容为主,若涉及侵权请及时告知,将会在第一时间删除。本站原创内容未经允许不得转载:西数超哥博客 » IDCC2018|ODCC金融专家组专家杨志国:应急管理在银行业数据中心的策略与实践