作者
本刊特约撰稿人 李卫忠
近年来,建设银行全面践行金融科技战略,统筹规划和持续投入智能运维体系建设,打造了以感知力、控制力、决策力为基础,具备安全管控、高效交付、快速响应、标准运营四大能力的企业级数字化运维应用,引起业界广泛关注。基于国家关于“急用先行、成熟先上”以及“产学研用联合”的标准制定机制,全国信息技术标准化技术委员会信息技术服务分技术委员会邀请建设银行牵头开展智能运维标准建设,随即成立了由社会各界50余家单位的100多名专家组成的智能运维标准工作组。经过不到一年时间,《信息技术服务智能运维 通用要求》(T/CESA1172-2021)团体标准就研制完成并在2021年9月正式发布。与此同时,国家标准《信息技术服务 智能运维 第1部分:通用要求》也比预期提前半年获得了国家标准计划号:20214124-T-469。更令人鼓舞的是,智能运维领域国家标准的制定被写入2021年底国家十部委联合发布的《“十四五”推动高质量发展的国家标准体系建设规划》。
近日,本刊特约撰稿人对建设银行运营数据中心主任王立新进行了专访,请他详细介绍了建设银行在智能运维领域的探索与实践。
中国建设银行运营数据中心主任 王立新
精准发力,打造智能运维体系
Q
《中国金融电脑》:您能否简要阐述建设银行运营数据中心数字化转型的历程?
王立新:科技革命和产业变革深刻改变着人类生产生活方式,影响着经济社会格局。主动拥抱科技革命、适应产业变革是商业银行适应社会发展的必然,也是锻造核心竞争力的不二选择。建设银行早在2010年就拉开了数字化经营实践的序幕,即启动了新一代核心系统的建设,对业务流程进行了企业级再造,为后续数字化经营探索奠定了坚实的基础。2018年,建设银行正式发布金融科技战略规划,明确了金融科技战略实施方向——建立技术与数据双轮驱动的金融科技基础能力,对内构建协同进化型智慧金融,对外拓展开放共享型智慧生态。
金融科技创新和数字化能力建设必须以强大的现代化数据中心为基石。在这一大背景下,建设银行运营数据中心于2018年8月重新组建成立,新时期的数据中心不但要继续为银行业务营运和发展保驾护航,更要参与银行数字化经营“建生态、搭场景、扩用户”的价值创造过程,助力社会数字化转型,推动数字经济建设。为此,建设银行运营数据中心主动作为、精准发力,通过打造智能运维体系等一系列举措,努力实现数据中心的转型与发展。
Q
《中国金融电脑》:您认为新时代的数据中心面临哪些困难?为何一定要实施智能运维?
王立新:随着人工智能、大数据、云计算等技术的飞速发展,运行维护服务正从制度与流程驱动向数据与算法驱动的智能运维演进,特别是随着“新基建”的发力和万物互联时代的到来,金融行业IT运维部门面临着前所未有的压力和挑战。
一是规模大且复杂。数据中心基础设施由千余台单一小型机发展为十万量级的各类设备,数量急剧增长,大规模、分布式架构演进也提高了运维复杂度。
二是交付时效性强。数字化经营要求进行超高频次的投产,对投产变更的时效性要求更高。数据中心要在确保安全稳定运行的基础上完成快速可靠的交付,这对现有的运维能力提出了极大的挑战。
三是监管要求趋严。与以往传统运维大多关注底层运维对象、极少触达并感知客户不同,新时期运维愈加关注用户体验;同时,监管对安全防护、业务连续性的要求也日趋严格。
因此,在云运维时代,运维管理需要从传统的“面向系统的技术运维”模式向“面向业务的技术运营”模式转变。正所谓“工欲善其事,必先利其器”,智能运维作为人工智能在数据中心管理领域的重要应用,已经成为应对上述挑战的“刚需”。
新冠肺炎疫情期间,网课辅导、在线问诊、线上会议等各种在线应用的使用量出现指数级增长。特别是疫情初期,建设银行运营数据中心南湖生产园区正处于疫情最严重的武汉地区,现场人员骤减,但因防疫产生的各类业务与IT支持需求激增。面对严峻的考验,我们借助集团一体化的智能运维管理体系远程接管了南湖生产园区的部分工作,实现了跨地域、一体化、资源复用,确保了全行业务安全稳定运行;依靠敏捷投产和自动部署能力,一天就搭建了满足1万多人同时在线办公的环境,1个月内投产了1000多个业务功能;通过移动运维App随时随地查看系统状况、处理运维事务,打破了运维的时空限制;利用智能化手段识别交易异常、局部监控缺失、架构离群等风险,防患于未然,为保障业务运营创造了安全可控的环境。
“新基建”的发展为数字经济带来了巨大的发展机遇,抓住机会就能发展壮大,错失机会就可能被淘汰出局。智能运维将成为数据中心未来的动力源,是数据中心赢得未来的关键。
持续探索,
构建全方位数字化运维应用
Q
《中国金融电脑》:建设银行在智能运维领域已经开展了很多探索与实践,积累了不少的经验。您能否详细介绍一下?
王立新:建设银行的智能运维体系是在不断的摸索中建立起来的。2012年之前,我们从无到有建立了基本的运维能力,以引进国外技术和产品为主;2013—2018年,为保障新一代核心系统的投产,自主研发建设了云管理平台、应用监控系统、事件整合平台等运维工具,使运维体系渐趋完善;2019年至今,按照自主可控的要求,基于新一代工程设计理念,以运维数据为基础,以自动化实施、智能数据分析为支撑,开始构建具备安全风险管控、快速业务响应、高效运维交付和标准运营支撑四大能力的全方位数字化运维应用,即“三大支撑、四大能力”。
“三大支撑”是指落实全景数据、智能分析与自动实施三大技术支撑。其中,全景数据技术汇聚了丰富而准确的运行数据,为各种智能运维应用提供信息支持,相当于运维的“眼睛”,可提供丰富的感知力,支撑可视运维;智能分析技术通过构建运维专属知识图谱和运维专属人工智能算法服务,对海量的运维数据进行整理和分析,识别可能存在的问题或风险,并辅助运维人员进行判断和决策,相当于运维的“大脑”,可提供精准的决策力,支撑主动运维;利用自动实施技术可以执行自动化、流程化操作,解放运维人员,提升运维效率和准确率,相当于运维的“手脚”,可提供强大的控制力,支撑高效运维。
“四大能力”是指构建面向应用的端到端交付池,变被动交付为主动交付,从根本上提升面向未来的服务供给水平,实现高效的资源交付能力;打造精准的应用监控体系,提升业务洞察能力,建设一体化权限管控与操作审计体系,控制操作风险,提升安全风险管控能力;构建运行指挥、事件智能处置等应用,协同整合全行IT资源,及时应对生产事件,敏捷响应业务需求,保障业务连续性,打造快速的业务响应能力;通过打造运营指标体系、容量管控等应用,提升应用部署规范化程度,精准度量运维活动,合理配置资源,为数据中心的科学管理提供标准的运营支撑能力。
Q
《中国金融电脑》:目前,建设银行智能运维体系建设的总体进展如何?
王立新:建设银行运营数据中心按照“自动化、数字化、智能化”三步走的策略,将分散的运维工具整合成“书同文、车同轨”的企业级智能运维应用。该应用于2021年全面投产,范围覆盖总行、境内外分行和子公司,涉及38000多名用户,破解了众多技术难题,申请专利百余项,自主创新产品二十余项,助力建设银行运维能力提升驶入快车道。从三大支撑来看,数据量有了快速且大幅度的增长,日均交易笔数超过200亿笔;利用算法在海量数据中挖掘价值,对风险进行识别,在预测“双十一”、春节等交易高峰的交易量等场景时发挥了重要作用;自动化水平明显提升,无人值守的变更得到了广泛的普及和应用。
在场景应用方面,建设银行运营数据中心通过高效的资源供给技术,在2021年交付了数万台服务器,同比增长近2倍;对业务精准洞察,实现毫秒级采集、1秒级监控;基于知识图谱关系分析故障影响,自动侦测设备的在线状态,使各领域告警同频共振,主要级别告警聚合率和事件标准处置策略覆盖率接近100%;在版本年增长超过70%的情况下平均投产时间反而缩短了70%以上,快速响应数字化经营需求。智能运维让建设银行有了标准的运营支撑能力,全面实现了IT架构的数字化管理,有力保障了信息系统的安全稳定运行和集团业务的稳健经营。
与此同时,建设银行将内生式发展与外向型合作相结合,向多家同业输出了智能运维产品,促进我国大中小银行机构优势互补、错位发展和多层次格局的构建。通过开展广泛深入的智能运维实证调研、牵头研制智能运维标准等举措,建设银行构建了开放共享的运维产业生态,彰显了大行责任担当,打造了金融科技运维领域的新名片。
科技创新,
为智能运维发展贡献力量
Q
《中国金融电脑》:请您举例说明建设银行智能运维的应用效果。
王立新:好的,我举几个例子来进行说明。
一是摆脱“人肉运维”,实现价值转型。建设银行坚持以人为本、“数据多跑路,员工少跑腿”的破局思路,利用数据与技术双轮驱动运维工作创新,让“两地三中心”的人员可以更加灵活地响应业务需求、便捷地处置问题。例如,通过一键式自动化版本部署,支持变更智能协同、一键式回退,在2021年实施的上万次变更中,绝大部分的应用版本是自动化方式部署,来自全国各地开发中心的数百人涌到数据中心现场支持投产上线的“盛况”已经一去不复返了。智能运维替代“人肉运维”,切实减轻了运维人员的工作压力,降低了运行成本,同时也有效避免了出现聚集性疫情的风险。
又如,在某个下午,监控显示某种跨境业务处理失败,于是我们立即启动了应急排查及处置流程,10分钟就恢复了应用,确保了数十亿元交易的及时处理,未造成实际业务影响。实际上,该类业务日交易量只有10笔左右,常规交易监控方法无法覆盖此类低频交易场景。那这个“雷”是怎么排查到的呢?我们创造性地开发了“滑动窗口累计”机制来解决小样本交易监控问题的算法,并在开放系统中全面推广,从而在异常处置过程中赢得了宝贵的时间,确保了业务的无损开展,化解了重大账务风险。
上面这些例子只是建设银行运用主动型、智能型运维能力来破解各种运维难题的一个缩影。在此过程中,运维人员的价值得到了更大的发挥,运维开发文化也在建设银行运营数据中心蔚然成风。
二是提升运维效能,助力业务运营。以往,建设银行面对“双十一”、纪念币预约等业务促销场景时总是提心吊胆,但现在就踏实多了。我们在新一代核心系统优势的基础上,通过不断打磨全链路容量评估能力,采用秒级资源扩容、动态流控、故障自愈等技术,动态调配资源,可以实现分钟级动态资源池扩缩容,增强了应用性能与应急处置能力,有效保障了大促期间系统的稳定运行。2021年11月11日,建设银行快捷支付业务峰值超过1.6万笔/秒,全天交易量超过3亿笔,继续优于同业,这其中智能运维能力的发挥功不可没。
在数字化经营方面,建设银行通过科技创新确保任务有效落实。首先,通过优化整合资源供给服务流程,保障资源供给的完整性,提升供给效率,大幅减少人工环节,实现了超大批量基础设施资源的按时供给,保障“战机群”敏捷迭代;其次,通过将流程与工具全面打通,实现端到端的自动化,使投产效率成倍提升,人为操作风险大幅降低,创造了全年数字化经营投产零失误的纪录;再次,在业内率先打造了毫秒级采集、秒级运算能力,保障了数字化经营源数据、指标时效性分析的数据采集及监控,使监控与预测更加精准。
建设银行致力于打造“最懂金融的科技集团”和“最懂科技的金融集团”,让“无科技不金融”内化于心、外化于行。作为智能运维国家标准工作组的牵头单位,建设银行将秉持“金融向善”的理念,积极构建共商共建共享的合作生态,在全国信息技术标准化技术委员会信息技术服务分技术委员会的领导下,携手“产学研用”各界单位,将智能运维国家标准打造成不仅适合于金融行业,而且适用于各行各业的统一标准,为智能运维产业发展作出贡献。
当前,社会结构、价值体系、生产消费方式的不断变迁推动着技术赛道的变更和发展范式的改变,百年变局百年难遇,机遇稍纵即逝,抓不住机遇就有被时代抛弃的危险!习近平总书记强调,加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。而智能运维正是人工智能与IT运维跨界融合的具体体现。因此,智能运维标准的编制是对国家战略的积极践行:一方面,它明确了运维智能化建设和运营的要求,填补了这一领域的空白,可增强企业在智能运维方面的规范性,起到支撑和引领作用;另一方面,它也促进了运维高端领域的专业性交流,拓展了创新思路,对打造智能运维产业生态、带动上下游企业协同发展产生积极作用,也必将为信息化领域“双循环”格局的构建和中国数字经济的发展发挥出更大的作用。
本文刊于《中国金融电脑》2022年第07期