基于大模型的云原生可观测运维体系
〇 分享简介 〇
当前故障运维体系常面临以下挑战:链路的碎片化和标准化不足:运维流程分散、缺乏统一规范,致使故障响应标准化程度偏低;且过度依赖运维人员的个人经验,例如:对监测数据和报警信息的解读水平、故障的精准定位和问题的快速排查能力、对Kubernetes集群管理与操作的熟练掌握程度。
相较之下,大模型通过整合运维流程、深入理解监控信息、智能关联SOP,并自动生成执行命令,展现了其在提升运维效率和协同性方面的潜力。
本次分享基于大模型的云原生故障运维体系,弥补现有运维流程中的一些缺陷。融合大模型强大的数据处理和自然语言理解能力,清晰的展现体系下的架构与技术关键路径,通过应用案例让与会者借鉴云原生环境下智能运维链路,来提高运维链路的整合度和流程标准化水平。
〇 分享收益 〇
目标:
1、了解大模型multi-agent工作模式
2、积累建设企业自运维链路经验
成功要点:
将运维整体功能进行合理分拆,形成不同Agent,并为之规划针对性的职能,进而再通过有机的整合方式,促成运维链路的顺畅串联。
启示:
聚焦当前运维体系的痛点,通过智能化的技术手段实现运维链路自闭环,形成完整的可观测运维体系。
〇 分享亮点 〇
1、云原生故障场景的挑战与大模型需求
2、大模型驱动的运维体系架构与关键技术路径
3、实践案例分析与故障运维链路展示
4、QA
阿里云技术专家,云原生游戏方案负责人。在可观测性与运维体系建设方面具有扎实经验,曾发表论文Fisher: An Efficient Container Load Prediction Model with Deep Neural Network in Clouds (ISPA 2018);Nanily: A QoS-Aware Scheduling for DNN Inference Workload in Clouds (HPCC 2019)。深耕于云原生基础架构领域, 作为OpenKruise、CloudNativeGame开源社区Maintainer,多次在KubeCon、云栖大会等技术论坛中进行主题分享。目前致力于运用智能化技术提高运维效能,并推动运维体系智能化发展。