活动首页 >日程安排

基于大模型的云原生可观测运维体系

时间: 09 月 21 日 10:00 - 10:50
内容介绍:

〇 分享简介 〇

当前故障运维体系常面临以下挑战:链路的碎片化和标准化不足:运维流程分散、缺乏统一规范,致使故障响应标准化程度偏低;且过度依赖运维人员的个人经验,例如:对监测数据和报警信息的解读水平、故障的精准定位和问题的快速排查能力、对Kubernetes集群管理与操作的熟练掌握程度。

相较之下,大模型通过整合运维流程、深入理解监控信息、智能关联SOP,并自动生成执行命令,展现了其在提升运维效率和协同性方面的潜力。

本次分享基于大模型的云原生故障运维体系,弥补现有运维流程中的一些缺陷。融合大模型强大的数据处理和自然语言理解能力,清晰的展现体系下的架构与技术关键路径,通过应用案例让与会者借鉴云原生环境下智能运维链路,来提高运维链路的整合度和流程标准化水平。

〇 分享收益 〇

目标:

1、了解大模型multi-agent工作模式

2、积累建设企业自运维链路经验

成功要点:

将运维整体功能进行合理分拆,形成不同Agent,并为之规划针对性的职能,进而再通过有机的整合方式,促成运维链路的顺畅串联。

启示:

聚焦当前运维体系的痛点,通过智能化的技术手段实现运维链路自闭环,形成完整的可观测运维体系。

〇 分享亮点 〇

1、云原生故障场景的挑战与大模型需求

2、大模型驱动的运维体系架构与关键技术路径

3、实践案例分析与故障运维链路展示

4、QA

日程嘉宾
2024中国软件研发创新科技峰会
刘秋阳
阿里云技术专家

阿里云技术专家,云原生游戏方案负责人。在可观测性与运维体系建设方面具有扎实经验,曾发表论文Fisher: An Efficient Container Load Prediction Model with Deep Neural Network in Clouds (ISPA 2018);Nanily: A QoS-Aware Scheduling for DNN Inference Workload in Clouds (HPCC 2019)。深耕于云原生基础架构领域, 作为OpenKruise、CloudNativeGame开源社区Maintainer,多次在KubeCon、云栖大会等技术论坛中进行主题分享。目前致力于运用智能化技术提高运维效能,并推动运维体系智能化发展。