2024中国软件研发创新科技峰会

活动首页 >日程安排

基于大模型的云原生可观测运维体系

时间： 09 月 21 日 10:00 - 10:50

内容介绍：

〇分享简介〇

当前故障运维体系常面临以下挑战：链路的碎片化和标准化不足：运维流程分散、缺乏统一规范，致使故障响应标准化程度偏低；且过度依赖运维人员的个人经验，例如：对监测数据和报警信息的解读水平、故障的精准定位和问题的快速排查能力、对Kubernetes集群管理与操作的熟练掌握程度。

相较之下，大模型通过整合运维流程、深入理解监控信息、智能关联SOP，并自动生成执行命令，展现了其在提升运维效率和协同性方面的潜力。

本次分享基于大模型的云原生故障运维体系，弥补现有运维流程中的一些缺陷。融合大模型强大的数据处理和自然语言理解能力，清晰的展现体系下的架构与技术关键路径，通过应用案例让与会者借鉴云原生环境下智能运维链路，来提高运维链路的整合度和流程标准化水平。

〇分享收益〇

目标：

1、了解大模型multi-agent工作模式

2、积累建设企业自运维链路经验

成功要点：

将运维整体功能进行合理分拆，形成不同Agent，并为之规划针对性的职能，进而再通过有机的整合方式，促成运维链路的顺畅串联。

启示：

聚焦当前运维体系的痛点，通过智能化的技术手段实现运维链路自闭环，形成完整的可观测运维体系。

〇分享亮点〇

1、云原生故障场景的挑战与大模型需求

2、大模型驱动的运维体系架构与关键技术路径

3、实践案例分析与故障运维链路展示

4、QA

日程嘉宾

刘秋阳

阿里云技术专家

阿里云技术专家，云原生游戏方案负责人。在可观测性与运维体系建设方面具有扎实经验，曾发表论文Fisher: An Efficient Container Load Prediction Model with Deep Neural Network in Clouds (ISPA 2018)；Nanily: A QoS-Aware Scheduling for DNN Inference Workload in Clouds (HPCC 2019)。深耕于云原生基础架构领域，作为OpenKruise、CloudNativeGame开源社区Maintainer，多次在KubeCon、云栖大会等技术论坛中进行主题分享。目前致力于运用智能化技术提高运维效能，并推动运维体系智能化发展。