基调听云CTO ,中国第一批商业化APM工具缔造者、实践者,中国信通院可观测性工作组组长,专注于大模型在智能观测性平台和AIOPS的产品研发及商业化运营上,对APM及可观测性行业有较深入的理解及洞见,擅长构建以大模型、多 Agent 协同为核心的 AIOps 能力体系,推动行业从“工具驱动”迈向“智能演化”。在金融、运营商及高科技等领域,有着非常专业的技术方案和产品洞见。
大模型训练在智能运维中的落地实践
〇 分享简介 〇
随着生成式人工智能技术的快速发展,大模型正成为推动技术创新和业务变革的关键引擎。在这个大模型时代,无论是改善用户体验、员工体验、合作伙伴体验、供应链效率,还是加快IT创新和产品交付,企业对数字化转型的需求从未如此迫切。在加速推进数字化转型的过程中,IT运维面临着全新的挑战。IT团队需要变革性的技术来打破数据孤岛,理清系统运行状态,实现更快的故障响应、更准确的根因定位、更少的用户影响,确保系统稳定性,从而驱动数字化转型。
传统的监控手段在云原生背景下,难以有效帮助企业解决故障发现和故障定位的问题。现有的工具和分析模型智能化程度不够,运维数据尚未充分转化为有价值的运维知识,企业迫切需要变革性的技术方案来解决IT运维的痛点。基于Transform的大语言模型技术,结合可观测性平台,已成为当前智能运维领域广受关注的创新解决方案。
本次分享将深入探讨在可观测性平台及智能运维中,应用大模型技术涉及到的模型选型、微调、预训练和检索增强生成(RAG)等方面的挑战,重点讨论OPS LLM在企业实际应用中的经验和挑战,探讨解决方案和最佳实践。
〇 分享收益 〇
目标:
1、理解大模型时代IT运维和可观测性所面临的新挑战,包括数据孤岛、系统状态复杂性及快速响应需求等。
2、了解到大语言模型技术在可观测性平台和AIOps中的具体应用,以及如何提升故障发现、根因定位和运维效率。
3、了解运维大语言模型训练过程中遇到的技术、资源和管理方面的挑战,收获相应的解决方案和最佳实践。
4、了解大模型技术在金融行业落地过程中的具体实施步骤和经验,帮助企业更好地推进智能运维项目。
成功要点:
明确建设智能运维或可观测性平台的需求和目标,选择与企业场景匹配的大模型,综合考虑性能、资源消耗和适用性。同时,了解获取运维大模型所需的语料,进行数据治理及模型微调,并掌握大模型在企业实际落地的推进步骤。
启示:
大模型技术在智能运维中的落地进展及实际在金融等行业的落地效果,结合企业自身场景推进大模型在智能运维领域落地方法论。
〇 分享亮点 〇
1、大模型时代下的运维与可观测性
2、大模型技术在可观测性平台中的应用
3、AIOPS与OPS LLM训练中的挑战
4、金融行业落地案例
5、QA
