活动首页 > 嘉宾介绍
2022中国软件研发管理行业技术峰会
吴声
工行数据中心基础技术实验室高级运维专家
工行数据中心基础技术实验室高级运维专家,超过15年的运维行业经验。先后负责过银行核心系统数据库管理、自动化及性能容量管理、应用版本管理等工作,对于银行IT系统从大机集中式架构到云原生分布式架构的转型演进过程中,运维体系能力的构建有较深入的理解。近年来,主要负责智能运维新技术研究、智能运维平台规划及场景研发等相关工作。
嘉宾日程:

工行数据中心可观测领域AIOps技术应用探索与实践

#AIOPS最佳实践

〇 分享简介 〇

智能运维经过近几年的发展,在银行IT系统可观测能力提升等场景上已取得了部分成效。目前AIOPS在平台服务化能力、支持复杂场景、深度融入运维工具体系等方面仍有提升空间。特别是金融业正在大力推进分布式架构转型,运维复杂度显著增加,如何提升故障场景下从业务到基础设施层的全链路快速根因定界定位以及精准业务影响分析是AIOPS需要重点关注及解决的问题。

工行数据中心重点围绕信息系统运维可视化和快速排障能力提升开展运维大数据分析等智能运维(AIOps)技术的应用创新,构建了以动态运维地图、日志及指标分析引擎为基础的多模态智能运维框架,融合了知识图谱、自然语言处理(NLP)、异常检测、关联分析等机器学习算法,面向运维应用提供分布式架构下拓扑自发现、日志模式自动化解析、指标无阈值监控等服务,并在业务级故障定位等多个运维场景中取得了良好成效,提升了异常感知能力,辅助实现快速故障定位。

本次分享将围绕AIOPS服务化能力构建以及典型运维场景成效你来论证AIOPS在整体提升信息系统运维可视化和快速排障能力方面的适用性。内容涵盖动态运维地图、运维大数据分析引擎技术应用以及业务级故障定位场景案例。

〇 分享收益 〇

目标

1. 构建动态运维地图,解决分布式架构下拓扑关系复杂难以自发现、可视化能力不足等痛点问题,为运维应用提供基础的地图查询及导航功能。

2. 构建运维大数据分析引擎,支持日志实时自动化模式解析、指标动态基线检测及关联分析,实现精准异常感知及快速辅助故障定位。

3. 基于动态地图及大数据分析引擎的服务,开展业务级故障定位等典型运维场景研发,实现从业务报警穿透到基础设施的全链路自动化故障定位。缩短故障排查时间,提高故障应急时效。

成功要点

“技术+平台+场景”三位一体的智能运维数字化转型思路。一是持续开展前沿智能运维技术创新;二是规划建设智能运维平台,从通用工具平台的角度,沉淀智能运维技术创新成果,为各专业运维场景应用研发提供智能运维引擎服务;三是研发典型运维场景,既验证AIOps创新应用的可行性和适用性,又解决运维难题。

启示

构建了AIOPS的服务化能力,与运维体系及工具协同整合,面向多样化的运维场景提供动态运维地图及运维大数据分析等基础服务。

〇 分享亮点 〇

1. 智能运维框架概述

2. 智能运维平台三大基础功能介绍

     a. 动态运维地图

     b. 日志分析引擎

     c. 指标分析引擎

3. 智能运维场景案例--业务级故障定位场景实践

4. QA

09 月 18 日 16:30 - 17:30