中国工商银行软件开发中心研发测试环境问题自动化分析处理探索与实践

2025-04-07
 

来源:BanTech智库

作者:中国工商银行软件开发中心

 

一、新技术下的研发测试之痛

在金融行业数字化转型的浪潮中,研发测试环境已成为保障系统稳定性的前沿战场。新技术的深入与分布式架构的普及,让环境复杂度陡增:交易链路横跨多个微服务,国产化数据库与中间件混合部署,云原生技术动态扩缩容的不可预测性等挑战使得传统“人工+分散工具”的运维模式举步维艰。典型痛点如下:

一是排查链路长。业务交易异常时,排查人员需要先定位到具体的服务名、节点,再分析节点实例的运行情况、资源情况等,此过程横跨了多个技术栈,整个排查流程耗时耗力。

二是工具入口多。日志中心、监控平台、运维数据配置信息分散在多个入口,一线人员为定位一个问题需切换多次系统界面。

三是协作成本高。各个团队占用大量工时消耗在环境问题排查及跨部门、跨应用沟通上,整个排查过程要依赖运维、开发、测试多角色人员的支持。 

 

二、数字化转型之工行软开破解之道

面对复杂的研发测试环境场景,中国工商银行软件开发中心(以下简称“工行软开”)积极探索,结合日常问题定位方法、解决措施等运维经验,建设研发环境问题快速发现、分析、处理、分发的流程框架。框架核心能力包括:基础支撑、问题分析、问题处理及分发,如图1所示。

 

图1 环境问题快速发现、分析、处理、分发流程框架示意

 

1.基础支撑能力

基础支撑能力即统一可观测数据底座。整合环境可观测数据,实现全方位监控,如图2所示。

图2 统一可观测数据底座示意

 

整合性能容量平台、全息监控、日志中心、业务案例检测平台等已有的运维支撑系统,提供运行态数据、调用链路、应用日志等环境可观测数据;补充自定义监控指标上送能力,扩展特色监控场景数据;再结合研发环境运维数据配置信息等运维资产数据,统一可观测数据底座。

通过横向覆盖工行软开主流技术栈或技术产品,如容器、中间件、数据库、分布式服务框架、分布式批量框架等,纵向按系统资源、应用节点、应用服务、应用业务分层进行监控,全方位监测环境的健康状态。

2.问题分析能力

问题分析能力即从人工经验到智能规则。运营专家规则库,动态沉淀知识,如图3所示。

 

图3 人工经验到智能规则的问题分析能力示意

 

基于环境可观测基础数据,获取对应的异常应用节点、服务、报文、日志、调用链路,定位问题原因,对问题进行分类,并推荐解决建议,形成“检测结果-分析-建议”的标准流程。

针对研发环境的特点,围绕行内主流技术栈、重点交易渠道,将日常问题排查步骤形成标准分析处理规则,沉淀为专家规则库,以此支撑工具实现自动化,将原人工排查经验转化为工具能力。

持续运营专家规则库,以问题为导向,通过定期组织专家会审、建立用户反馈机制等手段,对专家库进行补充和修订,持续扩展问题分析的深度和广度,以此达到动态沉淀知识效果。

3.问题处理及分发能力

 

问题处理及分发能力即构建自愈和闭环机制。建立自愈脚本库,快速恢复环境;建立督办流程,保证问题闭环,如图4所示。

图4 建立自愈脚本库和督办流程示意

 

基于分析能力定位的问题是否存在自愈能力,使用不同策略进行处理。

若存在自愈能力,工行软开建立了统一的自愈脚本库。不同技术栈/技术平台、不同问题类型的自愈脚本或者组件,集中管理,供各个分析场景共享使用,形成统一的自愈能力。当分析处理具体问题时,对于可以自动处理的,自动执行对应的自愈脚本,快速恢复环境;对于需要用户进一步确认才能执行的,推荐用户自助使用,减少用户手工操作。

若不存在自愈能力,根据问题类型分发给对应的角色,同时附上详细的故障现场信息、解决建议,辅助用户快速解决问题。通过即时通讯工具快速提醒到个人,并在专属工作群透明问题及进度,对于需要应用进一步分析治理的,生成待办提交到督办系统进行跟踪闭环,以保证问题闭环。 

 

三、未来展望

目前,已发布专家库规则100多条,接入应用200多个,平均每天自动定位问题并提供解决方案达4000多次。通过问题分析处理流程化,减少重复问题人员排查投入、极大降低了人力成本,同时由之前的测试人员反馈问题,到现在系统提前预警并自动化处理和分发,提前规避测试风险。

未来,工行软开将汲取不同运维场景的经验,强化专家规则库和自愈脚本库的建设,并加强分发场景的构建。同时,借鉴AI技术,基于历史故障数据训练AI模型,以提升预警能力,丰富规则建设,让问题的解决更加便捷高效。 

-END-

前期精彩原创推荐(点击图片进入阅读):

图片
图片
图片

这是科技创新最好的时代,这是属于我们每个人最好的时代,关注“BanTech智库”,专注银行科技发展,探索无界金融生态!

 

 

收藏