2月5日,节后复工的第一天,青岛空管站的双杨OA办公系统陆续收到流程处理异常,影响公文流转的报告。接到故障报告后,网信办立即组织技保维护人员、实业公司技术支持人员与厂家紧急组建联动小组,第一时间进行故障排查,最大限度减少对业务的影响。由于白天需保障正常办公,因此将排查与修复工作集中在夜间展开。
经过综合研判,初步判断原因为:多维度因素叠加导致性能瓶颈。可能原因为:
1、服务器资源周期性波动
Web服务器与数据库服务器的CPU占用率在高峰时段飙升至90%以上,System进程异常占用
2、春节数据激增与历史冗余
节后待处理文件量骤增,叠加去年未办结公文的累积,数据库查询压力陡增。
3、时间同步机制缺陷
服务器时钟未接入统一对时系统,时间偏差可能引发流程逻辑异常。
4、功能更新后代码兼容性问题
底层代码与部分文件节点的兼容性未充分验证,叠加接入上网行为管理硬件和策略,加剧卡顿现象
针对以上问题,技术小组制定一系列优化措施,并连续多日利用夜间非工作时段实施:(1)重启Web服务器与数据库DATA服务器,释放系统资源;(2)升级web服务器CPU资源至16线程,验证硬件性能瓶颈;(3)发布公告,强制清理2024年冗余待办文件4586份,缓解数据访问压力;(4)调整服务器时钟同步策略,接入对时系统;(5)天擎全盘杀毒,清除可能的风险文件;(6)移除上网行为管理硬件,恢复软件至上次版本,排除升级因素干扰;(7)添加全流程执行日志监控,定位异常波动点;(8)修改流程节点底层逻辑,优化数据存储结构,压缩数据返回时间;(9)克隆测试服务器,搭建独立测试环境(IP:10.14.96.5)。至7日凌晨5点,所有措施实施完毕,经测试办公系统处理时间平均缩短至5s,效果显著。
在本次故障排查中,技术团队以“夜间操作不停工、日间业务零中断”为原则,通过连续深夜攻坚,及时高效解决突发问题,也验证了应急响应机制的有效性。下一步,网信办将联合保障部门针对此次事件进行分析总结。借助全员安全生产责任制体系建设和通导改革契机,明确管理、运维和售后的责任界面,完善相关管理制度,确保办公系统“快、稳、不断档”。(青岛空管站 张荣)