微信分享
第28届智能体驱动的GOPS全球运维大会 · 深圳站

使用微信扫一扫分享到朋友圈

活动分享
第28届智能体驱动的GOPS全球运维大会 · 深圳站

使用微信扫一扫进入小程序分享活动

活动详情

    当前,智能体(Agent)技术正以前所未有的深度重塑IT领域的生产范式。从运维自动化的闭环决策到开发环节的智能协同,从测试流程的自主验证到基础设施的AI驱动,智能体正成为推动研发运维体系向自治化、智能化演进的核心引擎。


    在这一关键发展窗口,第28届智能体驱动的GOPS全球运维大会2026·深圳站将于2026年4月17日-18日在深圳湾万丽酒店(广东省深圳市南山区粤海街道科技南路18号)隆重启幕。大会由高效运维社区(GreatOPS)与BizDevOps软件工厂联合主办,DAOPS基金会、开放运维联盟(OOPSA)指导,作为业内IT技术的高端行业盛会,GOPS大会自2015年发起以来已成功举办27届,覆盖国内外城市包括北京、上海、深圳、美国硅谷、新加坡举办,主要面向IT行业的中高端技术人员,累计吸引超9万人次参会,覆盖金融、通信、制造、互联网等各行业一线技术决策者与实践者。


    本届大会为期2天,侧重运维智能体、开发智能体、测试智能体、AI Infra、AI+DevOps、SRE、AIOps、AI+可观测性等热门技术领域。与行业一线专家共同探讨智能体驱动下的技术变革。


【联系我们】

 渠道合作:

 渠道总监:刘   欣 158 0111 5386(微信同号)


 赞助和门票咨询:

 业务经理:周   静 130 7118  2180 (微信同号)

 业务经理:刘毅菲 130 2108 2989(微信同号)


议题申报:

项目负责人:刘   杰 156 5212 7323(微信同号)小   雪 131 4122 7956(微信同号)

演讲专题

大会演讲专题.jpg

大会智囊团/出品人
  • 萧田国
    高效运维社区 发起人
    GOPS 全球运维大会 发起人
    演讲主题:主办方致辞:拾级而上:GOPS十年筑基之路
    个人简介: 萧田国,DAOPS 基金会全球董事,DevOps 时代社区和高效运维社区发起人,开放运维联盟联合主席,GOPS 全球运维大会发起人,复旦大学特聘讲师。2004年硕士毕业于北京科技大学,先后就职于联想集团、搜狐畅游、智明星通和触控科技等,十余年互联网运维及开发运维( DevOps)从业经验。
  • 党受辉
    腾讯 IEG
    技术运营部助理总经理
    腾讯蓝鲸创始人
    演讲主题:大型SRE组织设计与建设
    主题简介:
    某大型互联网公司的SRE岗位建设,包括职能、晋级标准、落地方案、过渡计划 收益:可以给正在转型或即将转型的运维团队一定的参考,包括如何基于现有架构的过渡方案,减少转型对业务及现团队的冲击
    个人简介:
    曾就职于东软集团,为能源行业定制信息化体系,加入腾讯后负责运维团队管理。2012年负责互动娱乐事业群研发运营基础PaaS(蓝鲸)的设计、建设和运营。结合微服务、云、大数据等理念及前沿技术,通过PaaS实现研发运营一体化,并通过SaaS化产品,助力支撑团队转型升级,推动 DevOps 生态及 AIOps 落地。
  • 腾讯开源联盟主席单致豪
    单致豪
    腾讯开源联盟主席
    演讲主题:腾讯基础软件开源与 OpenTenBase 开源实践
    议题简介:本次演讲将围绕腾讯基础软件开源取得多项重要进展,包括新版本发布、上游社区贡献、应用落地等,持续推动行业创新与合作。同时随着近年来全球数据库行业发展趋势,开源与分布式架构逐渐成为焦点,也将介绍腾讯在分布式数据库领域的开源进展情况及实践。
    个人简介: 单致豪,现任腾讯开源联盟主席,专注在云原生、微服务、边缘计算、大数据、操作系统等领域的开源生态建设。为腾讯建立健康的开源生态努力,致力于以开源方式加速技术和产品的创新。作为腾源会导师,开展与开发者和开源组织的开源创新协作。同时,担任Linux基金会董事会成员、TARS基金会董事主席、FinOps基金会董事成员、NextArch基金会TOC、OpenCloudOS社区秘书长、Akraino边缘计算TSC、开放原子开源基金会TOC、木兰开源社区TOC、中国云原生产业联盟技术专家、开源社顾问委员。曾获InfoQ十大开源杰出贡献人物、中国信通院尖峰开源人物、COPU中国优秀开源人物、SegmentFault中国开源先锋、GOPS微服务年度风云人物、Go中国最具价值专家。
  • 彭云鹏
    百度
    智能研发团队副总经理
    演讲主题:软件工程智能化变革的探索与实践
    议题简介:AI 时代下,大模型已赋能到各行各业,而软件研发是落地最早,效果最为突出的领域。从以续写、问答为主的智能代码助手,到如今可实现端到端需求级生成的各种编码、测试智能体。随着能力形态的升级,软件工程也在发生着智能化变革。本主题分享将围绕软件工程智能化变革的四个阶段,百度在这个变革中,技术上的探索以及整个集团的落地实践进行展开,和听众深入探讨在这个变革中,人与 AI 的协同关系,工程师如何通过 AI 的赋能提升自身的能力和竞争力,企业如何打造自己智能化的软件工程,提升企业研发效率,加速创新,实现业务突破。
    演讲提纲:
    1、软件工程智能化变革;
    2、智能化变革背后的技术迭代;
    3、百度软件工程智能化的实践。
    听众收益:
    1、了解软件工程智能化变革的四个阶段,当前的状态,以及未来的趋势;
    2、了解构建软件工程智能化能力背后的技术迭代;
    3、通过百度的软件工程智能化实践,探索自身企业智能化变革之路。
    个人简介: 彭云鹏,百度智能研发团队副总经理,负责文心快码 Comate 智能代码助手、云 IDE、需求管理平台、代码分析平台和效率云平台等业务和团队。在代码智能化、静态分析、开发工具、软件测试、研发数字化等领域申请国内外发明专利70个,已获授权专利37个。国家重点研发计划《基于编程现场大数据的软件智能开发方法和环境》技术骨干,国家高质量专项《基于大模型技术的工业领域智能化开发工具项目》技术骨干,OpenHarmony 技术指导委员会 IDE TSG 成员。
  • 李佳奇
     去哪儿旅行
    基础架构负责人 技术总监
    演讲主题:打造面向 AI 的基础技术团队
    议题简介:AI 大模型为企业增长带来新的机遇,对企业的技术团队也带来新的需求和挑战。去哪儿基础架构技术团队积极拥抱变化、对 AI 时代下技术基建、流程革新、组织建设等关键议题进行了深入的思考,并进行充分的实践探索,走出了一条打造有力支撑 AI 赋能业务、AI 赋能企业需求的技术基建和技术组织之路。本次分享会从技术基建、流程革新、组织建设三个核心方向解析企业落地 AI 的需求和应对方法,给出一条经过实践检验的落地方法,展示去哪儿旅行技术团队目前取得的一系列成果,并分享相关的经验和总结。
    演讲提纲:
    1、大模型时代 OTA 企业的内外需求和技术挑战;
    2、技术团队在技术基建、流程革新、组织建设的探索变革;
    3、当下 AI 落地成果和下一步展望。
    听众收益:
    1、了解企业在 AI 时代下的对外对内需求及技术团队面临的挑战;
    2、了解如何打造 AI 时代下有效支撑企业 AI 落地的技术团队及相关思考;
    3、了解互联网企业真实落地经验和案例及核心细节。
    个人简介:李佳奇,去哪儿旅行技术总监,基础架构负责人,技术中心 TC 委员、业务架构 SIG 负责人、负责基础架构部门,在公司推广 AI 智能体落地。10余年 OTA 一线研发经验,在高并发高可用系统建设、DDD 项目落地、业务域系统价值度量、线上系统防腐治理等领域有代表性作品。多次在QCon、QECon、SDCon、A2M、WOT、SACC、msup TOP100峰会等大会担任出品人和讲师,和 AZone 架构院、K+Talk、musp 等合作推出线上课程和直播。
  • 前京东 资深测试专家陈磊
    陈磊
    前京东 资深测试专家
    演讲主题:让每一个测试团队都能拥抱 LLM:一个通用的智能化测试实践方案
    个人简介:陈磊,阿里云 MVP,华为云 MVP,中国商业联合会互联网应用工作委员会智库专家,中关村智联软件服务业质量创新联盟软件测试标准化技术委员会委员,中移联合智库专家, Asian Journal of Physical Education & Computer Science in Sports 编委会委员、 EXIN DOM 。《接口测试方法论》、《持续测试》、《软件研发效能权威指南》《京东质量团队转型实践:从测试到测试开发的蜕变》、《软件研发行业创新实战案例解析》作者,在极客时间开设过专栏“接口测试入门课”,在拉勾教育开设过“软件测试第一课”,担任过《软件研发质量管理体系白皮书》、《测试敏捷化白皮书》编委。具有多年质量工程技术实践经验,精通研发效能提升、手工测试团队自动化测试转型实践、智能化测试等,公开发表学术论文近 30 篇,专利 20 余篇,并且是国内 TID 、 NCTS 、 MAD 、 MPD 、 TICA 、China DevOpsdays 、 QECon 等技术峰会的演讲嘉宾或出品人。
  • 阶跃星辰 SRE负责人王超
    王超
    阶跃星辰 SRE负责人
    演讲主题:专家解读《企业级 AIOps 实施建议白皮书V1.0》
    主题简介:
    由OSCAR联盟 和 高效运维社区联合牵头,联合BATJ华为等巨头AIOPS专家,结合互联网,银行,电信等行业AIOPS落地经验,得到产学研一致赞许的《企业级 AIOps 实施建议白皮书》已经发布到了1.0版本,白皮书中从场景,实施路径,关键技术,效果度量等多方面进行了细致的阐述,相信已经有非常多的企业通过学习白皮书,已经着手在公司里进行AIOPS的落地。希望通过本次演讲,将白皮书中补充的内容分享给大家,对白皮书中的重点内容"划重点",让更多的企业能够通过AIOPS的实践,降本增效,享受到AIOPS的技术红利。
    个人简介:
    京东金融资深技术架构师、应用架构部负责人,也曾负责人人网产品运维团队(PE)。经历了京东金融运维体系从0到N的过程,数次618和双十一大促的考验,目前主要关注DevOps,运维与架构的融合,业务可用性保障,智能运维,大数据运维,运维平台建设和团队管理。
  • 石雪峰
    京东零售
    研发效能专家
    演讲主题:效能思考“快与慢”——AI 时代全链路提效的机遇与挑战
    个人简介: 石雪峰,全领域研发效能专家,京东零售技术效能通道委员,开放原子开源基金会 TOC 成员,极客时间专栏《DevOps 实战笔记》主笔,多本畅销书《研发效能权威指南》、《Jenkins2 权威指南》、《高效能组织模式》的译著者。
  • 阿里巴巴云监控负责人徐彤(绍宽)
    徐彤(绍宽)
    阿里巴巴云监控负责人
    阿里巴巴云监控负责人
  • 科大讯飞 智能研发解决方案负责人 效能平台首席技术专家薛增奎
    薛增奎
    科大讯飞 智能研发解决方案负责人 效能平台首席技术专家
    科大讯飞 效能平台首席技术专家
  • 陈迪豪
    顺丰科技
    AI 技术平台负责人
    AIOps 项目算法负责人
    演讲主题:基于 DeepSeek 和多智能体的根因定位系统实践
    议题简介:随着 IT 系统复杂度呈指数级增长,传统运维模式在故障根因定位中面临效率与准确性的双重挑战。AIOps 技术作为破局关键,正朝着智能化、自动化的方向快速演进,而大模型的崛起为复杂场景的因果推理与知识泛化提供了全新可能。本演讲聚焦多智能体协同架构与大模型技术的深度融合,系统解析如何通过多智能体分工协作构建新一代 AIOps 体系,并分享 DeepSeek 大模型在复杂运维场景中的落地实践。
    演讲提纲:
    1、AIOps 和 RCA 技术演进趋势;
    2、基于多智能体的运维体系搭建;
    3、大模型落地多场景根因定位系统;
    4、DeepSeek 等大模型优化与实践。
    听众收益:
    1、把握 AIOps 与根因定位技术的前沿方向,了解多智能体协同架构的创新价值;
    2、掌握复杂运维场景的体系搭建逻辑,提升多智能体协作设计与实践能力;
    3、学习 DeepSeek 大模型优化策略与实践经验,获取可复用的行业解决方案。
    个人简介: 陈迪豪,目前担心顺丰科技 AI 技术平台负责人和 AIOps 项目算法负责人,负责顺丰集团 AI 和大模型基础架构功能,曾任第四范式平台架构师和 OpenMLDB 项目 PMC,以及在小米科技担任云深度学习平台架构师以及优思德云计算公司存储和容器团队负责人。活跃于分布式系统、机器学习相关的开源社区,也是 HBase、OpenStack、TensorFlow、TVM 等开源项目贡献者。
  • 董越
    《高质效交付》作者
    《DevOps实践指南(第二版)》译者
    前阿里巴巴 研发效能事业部架构师
    演讲主题: 工具设计的范式变迁:从CI/CD、平台工程到 AI4SE
    个人简介:董越,独立 DevOps 咨询师、《研发运营一体化(DevOps)能力成熟度模型》核心专家。曾任阿里巴巴集团研发效能事业部架构师、高级产品专家等职,从事Aone/云效 DevOps 产品设计、阿里云专有云集成与发布解决方案设计等工作。是多本技术畅销书作者与译者。著有《高质效交付:软件集成、测试与发布精进之道》、《软件交付通识》、《未雨绸缪:理解软件配置管理》等,译有《DevOps实践指南(第二版)》、《高效能团队模式:支持软件快速交付的组织架构》等。当前主要从事企业级 DevOps 体系建设的咨询工作,帮助华为、中信银行、中国移动等众多企业提升软件研发交付效能。
  • 大会议程(持续更新中)

    议程-实时更新-0316_Sheet1(1).png

    大会讲师(持续更新中)
  • 黄博文
    阿里巴巴
    持续交付技术专家
    演讲主题:面向 AI 的 DevOps 重构:从工具链到智能体的效能跃迁
    主题简介:传统 DevOps 领域发展多年,工具链齐全,效能提升进入深水区,边际效益递减。需求评审反复、代码返工率高,代码评审、测试用例、流水线维护占用大量人力,线上问题排查耗时耗力、风险高。仅靠工具自动化已经不够,需要 AI 驱动的‘决策自动化 + 认知自动化’,才能打破效能天花板。AI 浪潮带来的不只是一个“更聪明的插件”,而是一次从工具到智能体、从人工决策到智能决策的系统性重构。
    演讲提纲:
    1.为什么 DevOps 需要 AI-效能瓶颈与新变量
    2.效能视角下的 AI DevOps 全景图
    3.AI 需求管理:减少返工的第一道关口
    4.AI 智能编码与评审:提升开发吞吐与质量的核心引擎
    5.mcp 插件:串联本地编程+线上 CI/CD 的桥梁
    6.A 运维模型:助力衔接线上、线下,发布卡点与故障排查
    7.落地路径与实践建议
    8.总结: AI 时代的 DevOps 角色与效能重构
    听众收益:
    1.理解从传统“工具链 DevOps ”走向“智能体 DevOps ”的整体演进路径,为什么只有引入 AI 才能突破当前研发效能天花板。
    2.系统掌握 AI 在需求、开发、测试、CI/CD、运维各环节的典型应用模式
    3.获得一套围绕 AI Agent 进行角色分工与协作模式重构的思路,帮助开发、测试、运维和架构师在同一张路线图上对齐改造目标和度量指标
    个人简介:黄博文,阿里云持续交付技术专家,架构师。多年开发老兵,在国内外多家企业做过技术教练及技术咨询,在 DevOps 技术及云端架构方面拥有丰富的经验。译作有《面向对象的思考过程》、《基础设施即代码》、《Docker实践》等。目前主要负责阿里云云效产品的架构和研发工作。曾多次在DevOps Days、Qconf 等大会做过主题演讲,并参与信通院组织的《研发运营一体化能力成熟度模型》的评审工作。
  • 李也
     阿里巴巴
    智能可观测算法专家
    演讲主题:统一数据模型UModel及其在 AIOps Agent 上面的应用
    主题简介: 在大模型和 Agent 的时代中,如何用大模型 Agent 做智能运维受到了越来越多的关注。在搭建 Agent 之前,可观测数据的统一存储和统一建模是让 Agent 能感知到可观测数据的必要条件。可观测数据的统一模型 UModel 不光提供数据的统一存储和统一建模,还对 Agent 提供了世界地图。在本次演讲中,我们会分享如何用 UModel 快速搭建一个 AIOps Agent。我们还会分享阿里云可观测从通用 Agent 到 AIOps Agent 的最佳实践。
    演讲提纲:
    1,为什么 AIOps 很容易停留在「炫酷 Demo」
    2,UModel:云原生应用架构的世界模型
    3,如何用Umodel 的接口快速搭建一个 AIOps Agent
    4,从通用 Agent 到 AIOps Agent,阿里云可观测的最佳实践
    听众收益:
    1,了解统一可观测数据模型 UModel
    2,了解如何 UModel 用于构建基于大模型的智能运维 Agent
    3,了解如何通用Agent和智能运维 Agent 的异同,以及如何将通用 Agent 改造成智能运维 Agent
    个人简介: 李也,阿里云智能可观测算法专家,香港中文大学计算机博士,在智能运维和数据驱动的决策方向有 10余年科研和落地经验。主导的异常检测和根因定位等 AIOps 算法在阿里云大规模落地。在 ASPLOS、SIGMOD、WWW、VLDB、TKDE、TON 等顶会顶刊发表过多篇 AIOps 算法论文,并在这些国际会议上做报告与分享。目前专注于大模型 Agent 及其强化学习在智能运维场景的落地。
  • 白潇
    蚂蚁集团
    技术专家
    演讲主题:基于 MCPs/Skills/SPECs 的 AI 风险智能体系演进路径
    主题简介: 蚂蚁集团的 DeRisk 产品聚焦于技术风险 & 运维领域,将技术风险能力、数据、场景、经验沉淀于AI原生的风险智能解决方案中,并将其广泛的嵌入日常用户使用的流程中。旨在为每个应用系统提供一个7*24H的 AI 系统数字管家 (AI-SRE/AI-DBA/AI-QA),并能与真人专家进行协同,7*24H处理业务问题,形成7*24H得深度护航与防护网。
    在产品落地过程中,DeRisk 充分吸收 AI-Native 产品的设计理念并结合技术风险领域背景,依托于自身 agentic loop/multi-agent 的演进,在工具引擎/知识引擎的基础上,逐步形成从基础设施到领域经验到应用特征的协同新范式,提出基于 MCPs/Skills/SPECs 的新一代智能防控网络。
    演讲提纲:
    1. 大模型时代运维领域的智能化演进概要
    2. DeRisk,蚂蚁AI原生的风险智能探索与实践
    3. 基于 MCPs/Skills/SPECs 的新一代智能防控网络
    4. 当前面临的一些问题与挑战
    5. QA
    听众收益:
    1、对 AI Native 技术关注者和 DevOps 从业者而言,深度了解技术风险智能化建设的方案与技术,启发如何构建适合业务发展的技术风险智能体、加快 AIOps 在 LLM 时代的落地。
    2、结合大模型的技术风险智能化,不仅是在当下的风险技术栈上添加大模型的交互能力,需要以智能原生的理念进行全方位的重构,从架构设计、数据链路、应用实践等多角度实现技术的落地。我们提出基于 MCPs/Skills/SPECs 的新一代智能防控网络,提供可落地的前瞻思路 。
    个人简介: 白潇,蚂蚁集团技术专家,DeRisk AI 原生的智能运维平台负责人。曾任职于华为、阿里,在高可用架构、故障应急产品化智能化等领域有丰富经验。2023年起主要负责 DevOps 和 LLM 交叉领域的探索和实践落地,通过运维大模型、SRE Agent 等技术方案演进到 DeRisk 智能运维的平台落地,实现对 SRE/DBA/质量等团队的赋能提效。从业十余年技术方向覆盖底层软件、互联网业务开发、技术风险高可用等多个方向,拥有2篇专利、软著若干。
  • 董越
    《高质效交付》作者
    《DevOps实践指南(第二版)》译者
    前阿里巴巴 研发效能事业部架构师
    演讲主题: AI 增强的持续交付:从自动化到智能化的演进路径
    听众收益:
    1、理解 AI 与持续交付融合的核心价值与最新行业趋势,建立从自动化到智能化的完整认知框架。
    2、了解 AI 增强持续交付的关键技术点。
    3、学习领先企业的实践案例,获得可参考的演进路径与落地策略,规避常见的实施陷阱。
    个人简介:董越,独立 DevOps 咨询师、《研发运营一体化(DevOps)能力成熟度模型》核心专家。曾任阿里巴巴集团研发效能事业部架构师、高级产品专家等职,从事 Aone/云效 DevOps 产品设计、阿里云专有云集成与发布解决方案设计等工作。是多本技术畅销书作者与译者。著有《高质效交付:软件集成、测试与发布精进之道》、《软件交付通识》、《未雨绸缪:理解软件配置管理》等,译有《DevOps实践指南(第二版)》、《高效能团队模式:支持软件快速交付的组织架构》等。当前主要从事企业级 DevOps 体系建设的咨询工作,帮助华为、中信银行、中国移动等众多企业提升软件研发交付效能。
  • 黄俊
    某券商公司
    核心交易系统架构师
    演讲主题:从“可用”到“高效”:大模型驱动的全栈智能调优实践
    主题简介: 在金融行业全面信创的落地过程中,证券公司作为资本市场的核心枢纽,其核心交易系统的自主可控、高性能运行直接关系到金融市场的安全与稳定。不同于普通行业,证券交易系统对低时延、高可靠、高并发有着极致要求——毫秒级的性能差异都可能影响客户交易成交概率,系统稳定性更是容不得丝毫闪失。然而,在CPU、存储、交换机、网卡等底层关键硬件全面国产化替代的过程中,性能与稳定性的不确定性增加、调优职责真空等痛点问题日益凸显,传统研发协作模式已难以为继。
    大模型技术的崛起,为证券信创全栈调优带来了革命性机遇。通过融合 RAG、模型微调、MCP 等前沿AI技术,构建全流程闭环的智能调优体系,能够切实有效地缓解国产化替代进程中的性能差距问题,加速实现"稳、快、省"的核心目标。本次分享将结合我司核心交易系统全面信创实践,深入探讨大模型技术在全栈智能调优方案中的技术实现路径与落地价值。
    演讲提纲:
    1、全面国产替代的痛点与挑战
    2、大模型技术发展带来的新机遇
    3、全栈智能调优方案与创新点
    4、自主科技创新生态倡议
    听众收益:
    1、对全面国产替代中会遇到的软硬件难题有全面认知,包括但不限于计算、存储、网络、数据库、JDK、通用中间件等各领域产品功能与性能差距;
    2、对大模型前沿技术,例如 RAG、模型微调、模型蒸馏等有一个整体认知,并对大模型技术本身出现的幻觉问题有直观示例认知;
    3、通过贝叶斯调优框架与大模型智能调优方案的对比,听众将了解当前系统调优领域的前沿技术与进展;
    4、通过解析核心系统信创智能调优设计思路与详细方案、评测数据,完整掌握关键实现方案并对预期效果有一个直观认识。
    个人简介: 本人先后就职于华为、招商基金,技术积累全栈,有多年敏稳业务的研发实施与团队管理经验,开放原子开源基金会 openEuler 社区 AI 联合工作组成员,连续三年(2022/2023/2024年)当选全球性云原生专业交流组织创原会年度云原生 MVP、2023年度云原生最佳创作奖。现在某券商担任核心交易系统架构师,兼任公司 DevOps 效能教练与内训师。
    在证券核心交易领域耕耘多年,2025年完成基于大模型技术的智能调优平台初步方案设计与落地,已支持公司新一代核心交易系统7个子模块信创调优评测并部署上线,此成果在工信部主办的第四届“鼎信杯”大赛中荣获“金鼎实践奖”。2023年主导核心交易系统与国产集中式 DB 的软硬件联合调优方案,因优秀的性能数据与普适的技术推广适用性,先后获得了创原会2023年的第三届“云原生技术先锋实践”奖,以及 CNBPA(云原生技术实践联盟)的“最佳云原生行业实践奖”、上交所优秀课题三等奖。
    喜欢做技术总结积淀与分享,相关 CSDN 技术博客(网名:江中散人)积累超10年,总计400+篇博文,技术领域涵盖云原生/云计算(包括容器/计算/存储/网络/PaaS 中间件/数据库/微服务/DevOps/AI)、软件工程、移动端 IOS/Android/Hybrid 混合开发等领域。
  • 祁宏钢
    小鹏汽车
    云基础架构研发工程师
    演讲主题:从可观测到可行动:小鹏汽车智能运维平台的演进与实践
    主题简介:随着云原生与智能汽车技术的快速发展,传统运维模式在系统复杂性面前面临巨大挑战。本次分享将介绍小鹏汽车如何从“可观测”走向“可行动”的智能运维演进之路。我们将深入解析一体化可观测平台的构建,并重点分享 AIOps 驱动的智能告警与根因分析的落地实践,展示如何通过精准诊断将运维数据转化为有效行动。同时,也将介绍在云基础架构中探索 AI Coding 的初步经验,为构建更自动化、智能化的运维体系提供实践参考。
    演讲提纲:
    第一部分:引言:智能汽车时代的运维新挑战
    第二部分:基石:构建“可行动”的统一数据底盘
    第三部分:飞跃:AIOps 驱动智能诊断,定义“可行动”
    第四部分:延伸:面向未来的行动力探索
    听众收益:
    1、借鉴小鹏汽车构建一体化可观测数据底盘与智能诊断平台的落地经验,掌握提升告警精准性与运维决策效率的关键设计思路。
    2、了解 AI Coding 在云基础架构与运维中的前沿探索,获取提升研发效能与实现运维自动化的具体实践思路。
    个人简介:专注于云原生可观测与智能运维(AIOps)领域。主导公司新一代可观测平台、智能告警与 AIOps 根因分析系统的研发落地,致力于通过智能化技术提升系统稳定性与故障定位效率。同时,积极探索并推动 AI Coding 工具链在云基础架构中的实践,以提升研运效能,驱动运维工作的数智化与自动化转型。
  • 王晨
    中国工程物理研究院计算机应用研究所
    智能运维平台架构师
    演讲主题:AI 大模型驱动的科研内网数智运维方法论与实战
    主题简介:本次报告将分享在高安全保密科研内网中,构建“监-管-控-析”四位一体数智运维平台的方法论与实践。内容涵盖:构建全域统一的可观测中心,实现运行状态透明化;建立标准化的运维服务体系,推动流程规范化;研发适应复杂场景的自动化工具链,提升操作效能;并基于运维数据模型,实现分析智能化。最后,重点探讨如何引入大模型等 AI 能力,推动运维从“人工响应”向“智能自治”演进,为科研基础设施应用服务提供高可靠、自适应、可进化的运维支撑。
    演讲提纲:
    1)背景与发展历程;
    2)需求与挑战;
    3)“监-管-控-析”运维平台架构与实践效果;
    4)总结展望。
    听众收益:
    1、帮助听众了解高安全保密背景下的科研内网运维平台的建设方法论,形成在高约束条件下可行可复制的运维体系建设框架;
    2、共同探索大模型时代运维能力建设方向与落地场景,明确大模型与智能化技术在严肃场景中的落地边界与实践经验。
    个人简介: 中物院计算机应用研究所算力与网络中心 PaaS 团队带头人,智能运维平台架构师。长期深耕复杂系统可靠性工程与运维实战,在云原生系统、数据库、中间件、全域可观测性以及 AIOps 算法落地等领域拥有深厚积累。目前主导科研内网智能运维平台的规划与建设,致力于打造“云-边-端”一体化的自治运维能力体系,为重大科研任务提供高可靠、智能化的终端服务、应用系统、算力网络。
  • 王龙
     蚂蚁集团
    技术专家,架构师
    演讲主题:蚂蚁智能立体观测,助力亿级用户的“碰一下”稳定性
    主题简介:
    摘要: 2024年6月,N 业务(碰一下支付)开始启动,在很短的时间内经历了爆发式增长。2025年5月用户规模破亿,9月用户规模突破两亿,业务发展速度令人惊叹。伴随这一飞速成长的,是风险保障的复杂度级数式上升,设备数量从最初的百台千台快速攀升至数百万台以上,遍布全国各类区域环境的大小商户。 在 N 发展的关键期,业务迭代节奏非常快。如此高速的业务发展节奏,对稳定性保障体系提出了前所未有的挑战。“碰一下”不再是简单的设备应用,它已成为连接支付、商户、设备、用户等多场景的复杂生态,而这种复杂性随着业务的增长不断被放大。
    面对如此复杂的业务场景,我们原有的监控体系在三方面遭遇严重挑战:
    首先是人工监控铺设周期长。以一次新业务上线为例,从指标定义、场景拆分到监控配置、调参降噪,完整流程需要月级别,远远跟不上业务迭代的速度。
    其次是维度组合爆炸难题。在发展初期,监控从单设备告警开始,逐渐发展到发现单一设备维度上的异常;随着业务规模扩大,需要同时考虑机型、商户、区域、SaaS 服务商、系统版本、软件版本、网络环境等10余个关键维度。这些维度组合后形成的空间规模达到数十万级别。
    第三,增长的告警噪音与有限的应急容量之间的矛盾。随着业务的发展,我们花费了大量的经历铺设监控以覆盖更多场景,更多的告警规则带来更多的告警,一线运维团队很快接近处理极限。继续增加告警势将难以得到有效处理;不增加告警,则会留下大量监控盲区,风险保障项目陷入两难困境。
    观念转变:
    面对这些挑战,我们深入反思当前监控模式的本质局限:告警需要先准确配置指标、维度、阈值,必须预先设想在哪个维度组合上可能存在异常,才能有效发现,形成“先画靶后射箭”的工作模式。
    那么,我们能否转变思路,做到“先射箭后画靶”呢?不要预先假设异常会在什么维度组合下发生,而是让系统自行去发现这些维度组合。即,先让系统自动感知细粒度的异常,然后通过算法挖掘异常发生的"靶心"在哪里。
    这便是立体观测体系的核心理念。
    演讲提纲:
    1.蚂蚁立体观测体系建设的背景
    a.业务背景
    b.传统监控能力遇到的挑战
    c.核心理念的转变
    2.蚂蚁立体观测体系3大核心能力
    a.蚂蚁立体观测整体架构
    b.千万级别的智能规则能力
    c.Ai 驱动的多维数据融合与智能洞察
    d.AModel 实体建模:统一数据认知
    3.蚂蚁立体观测产品效果
    a.整体效果
    b.产品功能介绍
    4.规划&展望
    听众收益:
    1.了解蚂蚁可观测在智能化领域的最新进展,以及蚂蚁在“监控发现”到“智能洞察”的方向的能力是如何演进及落地的。
    2.共同探索可观测领域智能化的发展方向,以及如何结合实体等标准化的数据进行建模,打破数据孤岛,为智能分析定位提供统一数据底座
    个人简介: 目前就职于蚂蚁可观测团队,深耕告警系统、AIOps、多维数据融合以及根因分析,负责蚂蚁集团核心监控平台 Aiops 以及告警系统的技术演进。设计并落地蚂蚁智能立体观测系统,通过 AI 驱动维度挖掘以及多维关联分析,支撑百万级设备实时监控。
  • 张鸿斌
    军事科学院
    某中心网信运维专家
    演讲主题:数据中心智能运维助力全栈节能系统工程
    主题简介: 新一轮人工智能的繁荣推动算力系统的功率密度不断攀升,基于传统化石能源的电力资源日趋紧张。随着基础设施节能空间的日渐枯竭,越来多的学者认识到,数据中心节能不仅只是占比30%的基础设施的责任,应是包含占比70%的 IT 层在内的全技术栈的任务,更是打破技术壁垒实现协同创新和系统重构的机会。全栈节能数据中心成为融合信息技术、基础设施和能源电力在内的综合性复杂系统工程。为了顺应行业发展趋势,推进数据中心节能低碳走向深入,本报告将结合数据中心的技术栈架构,阐述全栈节能的理念、关键技术以及领域应用,并对绿色低碳智算中心、特种数据中心的节能建设思路进行讨论,提出构建全栈节能数据中心的系统工程方法。
    演讲提纲:
    数据中心和全栈节能
    数据中心全栈节能系统工程
    数据中心智能运维和节能技术栈
    智能运维助力数据中心全栈节能
    特种数据中心节能
    听众收益:
    了解数据中心全栈节能理念和技术体系
    了解数据中心节能技术栈和跨栈节能技术
    了解如何通过系统工程方法设计全栈节能数据中心
    了解智能运维对数据中心全栈节能的作用
    了解特种数据中心的全栈节能设计思路
    个人简介: 军事科学院某中心高级工程师,清华大学计算机博士,研究方向为计算机体系结构、高性能计算、网络存储、高能效数据中心等,从事军用网络信息系统和数据中心规划、论证、建设、运维和管理等工作20余年,主导多项军队网络信息系统建设,获军事科学技术二等奖1项,三等奖4项,获得授权发明专利7项,发表论文50余篇。
  • 张立科
    中国移动通信集团有限公司数智事业部(九天公司|九天研究院)
    资深 SRE 专家
    演讲主题:基于多智能体的立体运维体系创新实践
    主题简介:敬请期待
    演讲提纲:
    1、破局:AI+运维的深水区挑战
    2、架构体系:构建“纵向穿透+横向闭环”的立体运维智能体矩阵
    3、实战:多智能体协同应用技术落地实践
    4、成效:核心应用场景规模化落地
    5、进化:从辅助执行到智慧运维大脑
    听众收益:
    1、了解多智能体协同在超大规模应用系统的落地应用方法论,贴近生产实践拆解全流程、多场景应用路径,获取可复用的可行性应用方案;
    2、共同探索企业运维数智化转型的发展方向,在保障系统高可用、高稳定、高安全等方面,提供可落地的前瞻思路。
    个人简介: 深耕运维15年,致力于系统稳定性保障体系建设和实践; 先后就职于央视新闻中心、中体骏彩、某头部消费金融等单位和企业,现任职中国移动数智事业部(九天公司|九天研究院),负责市场与服务支撑中心 SRE 运维体系建设和 AI+ 运维相关工作; 运维大会金牌讲师,SRE 体系建设创新实践入选24年云系统稳定安全运行典型案例。
  • 赵舜东
    高效运维社区核心成员
    GOPS 全球运维大会金牌讲师
    演讲主题:运维大模型开发平台建设实践
    主题简介:当大模型从技术热点走向企业落地,我们选择自研运维大模型开发平台。本次分享将完整复盘这一历程,涵盖从架构抉择到场景落地的关键实践:架构抉择:为何不用 Dify 而走自研之路?场景落地:如何让大模型真正“用”起来?经验与展望:我们学到了什么?本次分享聚焦于运维垂直领域的 AI 工程化实践,适合关注大模型落地、智能运维与平台研发的技术团队与管理决策者。
    个人简介:赵舜东,昵称“赵班长”,高效运维社区核心成员,GOPS 全球运维大会金牌讲师,阿里云 MVP,中国 SaltStack 用户组发起人;《 SaltStack 入门与实践》、《运维知识体系》和《缓存知识体系》作者;现任速云科技 CEO,专注于 DevOps 和自动化运维。
  • 张廷进
     腾讯
    IEG 自研游戏 SRE 负责人
    演讲主题:AI Agent 重塑 SRE 的腾讯游戏实践
    主题简介:本次分享将介绍腾讯游戏 SRE 团队的 AI 实践:基于三级服务目录体系,我们设定了「AI 提效计算算法」,精准锁定高频、高耗时、高复杂度的 SRE 场景,让 AI 投入"有的放矢"。更关键的是,我们构建了「AI 提效加速器」运转机制——统一AI 提效计算规则消除团队分歧,每日排名加强竞争意识,每周分享传递最佳实践并提升 AI 复利水平,自驱增长。分享将深入剖析8个千万级 DAU 场景下的 SRE Agent 案例,覆盖质量、效率、成本三大维度,展示 AI 如何成为 SRE 的"数字同事",AI 建设"全员共振"的组织进化路径。
    演讲提纲:
    Part 1:AI 提效的「计算算法」——找到提效靶点
    1.1 三级服务目录建设:从「混沌」到「精准画像」
    1.2 AI 收益计算模型
    基于 trace 自动化收益上报,使用虚增数字 SRE 员工数量综合衡量 AI 提效收益。
    1.3 「碳基→碳硅协同」思维转换
    承前启后的 AI 建设三阶段落地步骤
    1.4 「AI 提效加速器」:如何做到全员共振、全员抢活
    •算法共识——统一度量语言
    • - 建立「AI 提效度量公式」统一计算标准,消除团队间的度量分歧,避免主观评判
    •每日排名——激发良性竞争
    • - 「AI 提效日榜」:大屏看板实时展示各团队当日 AI 工时、
    •总体提效比例——目标牵引
    • - 制定总体提效目标:
    • - 提效比例 = AI 工时 / 团队总 SRE 投入人时
    • - 目标拆解到团队,团队拆解到个人,层层传导
    •每周分享——经验快速传播
    • - 「统一分享模板」:解决什么问题、三级目录、技术实现、收益
    • - 「AI 提效周会」:团队轮流分享实战经验,每周至少8个案例
    • - 「形成最佳实践库」:沉淀可复用的 Prompt、Agent 实现、模型选型经验、skills 经验、业务场景等
    •多举措组合形成「自增长加速器」,让 AI 落地速度倍增,百花齐放百家争鸣。
    Part 2:8大 AI 提效实战案例
    质量维度(3个案例)
    •案例1:AI 驱动的变更风险预测
    •案例2:AI 驱动的故障根因定位
    •案例3:AI 驱动的智能巡检
    效率维度(3个案例)
    •案例4:AI 驱动的监控仪表盘生成和变更效率提升
    •案例5:AI 驱动的从告警到代码异常修复的效率提升
    •案例6:AI 驱动的版本发布流程效率提升
    成本维度(2个案例)
    •案例7:AI 驱动的 CDN 带宽异常 AI 分析
    •案例8:AI 驱动的云资源用量 AI 诊断分析
    Part 3:AI 提效数据总览与未来展望
    - Agent 三级目录场景覆盖率、Agent 规模、SRE 虚增人力等数据分享
    - AI 提效后 SRE 职能进一步拓宽,不断探索上移、下移、左移、右移的进化之路
    听众收益:
    1.获得一套可量化的「AI 提效计算算法」,基于三级服务目录快速识别团队中的提效场景,避免AI建设的盲目投入
    2.掌握「AI 提效加速器」组织运营方法论,学会如何通过算法共识、排名激励、经验分享构建自增长机制,让 AI 落地「全员共振、全员抢活」
    3.获取多个可直接复用的实战案例,涵盖质量、效率、成本三大维度,包含技术方案和落地数据,为团队智能 SRE 体系建设提供参考蓝本
    个人简介:腾讯 IEG 自研游戏 SRE 负责人,主导欢乐斗地主、和平精英等数十款头部游戏的技术运营体系建设。现专注于 AI+SRE 融合创新,主导构建千万级 DAU 场景下的智能 SRE 体系,推动团队 AI 提效。
  • 冯诗淳
    阿里巴巴
    容器服务技术专家
    演讲主题:基于智能体构建 Kubernetes AIOps 智能运维体系
    主题简介: AI Agent时代,Kubernetes 仍然作为生产 IT Infra 系统的范式,作为 Gartner 亚太地区唯一连续三年入选“领导者”象限的产品,阿里巴巴容器服务团队通过结合已有沉淀的领域可观测体系、专家诊断经验,通过构建 AI Agent 的方式建设 AIOps 智能运维体系。本次分享介绍阿里巴巴容器服务通过 AI 助手构建的 AIOps 智能运维体系,典型智能运维覆盖的场景实践,以及并介绍如何通过开源项目赋能用户构建面向自身业务的 Infra SRE Agent。同时将分享在提升 Agent 在智能运维场景问题解决能力、领域适配性与行动可靠性方面的实践经验。
    演讲提纲:
    1.背景介绍 - 阿里巴巴容器服务的智能运维体系与需求场景
    2.能力体系介绍 - 覆盖运维场景 Day0~2 - 阿里巴巴容器服务 Kubernetes AIOps 能力介绍与典型场景
    3.开源实践 – 如何构建用户面向用户自己业务的 Infra SRE Agent
    听众收益:
    1. 面向如使用 Kubernetes 架构的 Infra Team,如何构建面向自身业务的 Infra SRE 智能体,实现从诊断到自愈的运维闭环。
    2. 探讨如何通过提供能力更好的智能体 Agent,以实现建设更全面的 AIOps 智能运维体系。
    3. 了解 Kubernetes 全生命周期(Day0~Day2)智能运维体系的设计范式、集成路径与能力评估方法,为团队 AIOps 落地提供可复用架构参考。
    个人简介: 阿里巴巴容器服务可观测负责人。负责阿里巴巴 Kubernetes 可观测体系、AIOps 智能运维体系的建设。 阿里巴巴 Prometheus 服务产品作者、阿里巴巴容器服务AI助手等功能作者。 参与多个阿里巴巴可观测产品孵化和演进。 有多年大规模分布式系统、Kubernetes、可观测系统构建、观测体系建设经验。
  • 邹晟
    去哪儿网
    DevOps 技术专家
    演讲主题:从定界到定位:指标血缘与智能体驱动的 AI 根因分析实践
    主题简介: 在复杂业务系统中,根因分析的最大难点并不在“是否有 AI”,而在于问题是否被准确地定界。随着系统规模扩大、调用链路加深以及第三方依赖增多,传统依赖规则和经验的根因分析体系逐渐失效:异常范围难以收敛,分析噪声不断放大,最终导致定位准确率下降、干扰率上升。
    本次分享将结合真实生产实践,系统介绍一套以 AI Agent 为核心决策层 的根因分析架构演进路径。从 指标血缘与 Trace 拓扑分析 切入,通过更高质量的指标关联与依赖建模,大幅提升问题定界的准确性;在此基础上,引入大模型推理增强根因定位阶段的可解释性;通过 RAG 构建“外挂记忆”,显著提升第三方故障与历史相似场景的识别能力;并结合 skills, MCP 等实现工具化能力扩展,最终完成统计学算法与 AI 推理的融合决策。
    演讲提纲:
    1.背景与挑战:传统根因分析为什么卡在“定界”阶段
    2.高质量定界:指标血缘结合 Trace 拓扑的问题收敛
    3.智能定位: AI 根因分析架构的四阶段演进
    4.落地效果:准确率提升 30% 的案例分享
    听众收益:
    1.了解从“问题定界”到“根因定位”的完整思路,理解指标血缘、Trace 与 AI 推理如何协同,减少误判和无效
    2.通过真实落地案例,学习如何在现有运维体系中引入 AI 根因分析能力,切实提升定位准确率和排障效率
    个人简介: 2017年加入去哪儿网,主要负责做稳定性治理体系的工具建设,包括根因分析、预案、 CI/CD 系统,一直在探索研发活动中 AI 结合的实践。
  • 吕洋
    腾讯
    前端开发专家
    演讲主题:可视化 AI 编程在大型项目下的挑战与解法
    主题简介:随着 AI 编程工具快速发展,业界主流采用 Agent SDK+ 云端 Sandbox 架构,但存在网络延迟、成本高昂、安全合规等挑战。腾讯无极团队探索了全新技术路线:充分挖掘浏览器原生能力,打造完整的 AI 编程环境。在浏览器侧实现了 TSX/Vue 实时编译、虚拟文件系统、本地文件双向同步;可通过DOM 直接定位 Vue 组件源码、捕获分析运行时错误、甚至 AI 模拟用户操作调试。构建响应从秒级降至毫秒级,代码完全本地化处理。
    同时无极建设了全链路平台能力: 源码版本管理;平台级别托管数据库和云函数服务;内置 AI Agent 对话组件、API 集成、UI 组件库等开箱即用能力;完善从开发到一键部署的全流程。开发者可专注业务逻辑,新手通过点击页面元素即可让 AI 精准修改代码。
    该方案已在腾讯内部20多个项目实践验证。本次分享将介绍技术实现细节及对"浏览器作为全栈 AI 开发平台"的思考,为 AI 编程工具选型提供参考。
    演讲提纲:
    1. AI 编程架构的思考与选择
    1.1 云端沙箱方案的优势与局限
    1.2 为什么我们选择探索浏览器原生方案
    1.3 本地化前端 + 平台化后端的混合架构
    2. 浏览器能力边界的探索
    2.1 本地构建能力的实现
    o如何在浏览器中实现 TSX/Vue 编译
    o虚拟文件系统的设计考量
    o依赖管理的轻量化方案
    2.2 版本管理的浏览器实现
    o在浏览器中运行 Git 的技术方案
    o与 GitHub/GitLab 的远端同步机制
    o代码审查与协作流程的支持
    2.3 与本地环境的交互
    oFile System Access API 的应用实践
    o本地文件同步的技术细节
    o离线开发能力的实现思路
    3. 全栈能力的平台化支撑
    3.1 后端服务的开箱即用
    o托管数据库、数据源的设计与实现
    o云函数的集成方案
    oAPI 网关与鉴权体系
    3.2 预置能力与资源
    oAI Agent 对话能力的快速集成
    o常用第三方服务的封装
    oUI 组件库与知识/技能库
    3.3 部署与运维的简化
    o一键部署流程的实现
    o版本管理与回滚机制
    o监控与日志服务
    4. AI 与运行时结合的实践
    4.1 运行时信息的获取与利用
    oDOM 到 Vue 源码的映射机制
    o错误信息的捕获与智能分析
    o网络请求的监控与优化建议
    4.2 AI 辅助调试的探索
    o自动化操作模拟的实现
    o问题复现与定位的思路
    o全栈上下文的代码修改策略
    5. 面向不同用户群体的设计思考
    5.1 零基础用户:自然语言 + 示意图 + 预置知识库
    5.2 前端开发者:专注业务逻辑,屏蔽基础设施
    5.3 全栈开发者:灵活的扩展与自定义能力
    6. 实践经验与反思
    6.1 典型应用场景案例
    o营销活动页面:快速迭代与发布
    o管理后台系统:复杂交互与数据处理
    oAI 应用开发:对话机器人与智能助手
    6.2 性能数据与用户反馈
    6.3 遇到的技术挑战与解决思路
    6.4 方案的局限性与未来规划
    听众收益:
    1.了解 AI 开发平台的完整技术栈设计思路
    2.掌握前端本地化与后端平台化的架构权衡
    3.理解如何为不同技术背景用户设计渐进式体验
    个人简介: 腾讯前端开发专家,腾讯无极智能开发平台技术负责人,腾讯低代码开源协同 OTeam PMC。在前端架构、全栈开发与工程化领域经验丰富。 近年来专注于 AI 与开发工具的深度融合,推动研发效能的持续提升。主导设计"多 Agent 智能开发系统",打通需求到产品的端到端自动化链路;完成"AI 生成页面平台"的架构设计与落地,显著降低复杂业务场景的开发门槛。同时在低代码开发平台、可视化引擎等方向有丰富的工程实践经验。
  • 陈宇
    广发证券股份有限公司
    智能化平台运维
    演讲主题:人机共创:广发证券智能运维探索之路
    主题简介: 从ChatOps到LLMOps,广发证券在智能运维领域走过了一条从“工具辅助”到“人机共创”的探索之路。我们通过低门槛的机器人分身设计,让每位运维专家都能轻松将个人经验沉淀为可复用的AI技能,最终形成了“3000+机器人+员工”协同作战的新模式。本演讲将分享这一模式背后的思考与实践——如何让AI从工具变为伙伴,让运维团队从单兵作战升级为“人机军团”,在提升效率的同时,让专家聚焦更高价值的创造性工作。
    演讲提纲:
    1.从ChatOps到LLMOps:人机共创的演进逻辑
    2.人机共创的核心实践
    3.面向未来的探索方向
    听众收益:
    1.掌握“低门槛共创”的设计理念与落地方法,了解如何助力一线专家主动参与机器人共建,实现经验的高效沉淀与复用
    2.获取人机协同在故障管理、变更管控、应急指挥等关键场景的实战案例,借鉴当前实施方案,加速运维智能化转型
  • 林春
    太保科技有限公司
    数智研究院首席数据库专家  
    演讲主题:AI 赋能金融级 SQL 治理:从被动救火到主动免疫的全生命周期实践
    主题简介:金融核心系统数据库 SQL 性能劣变、风险隐蔽性强等问题成为运维痛点。本次分享将拆解中国太保构建的多维智能 SQL 治理方案,揭秘如何通过全场景知识库、多维度量化模型、执行计划劣变识别等创新实践,实现 SQL 风险 “左移治理”,实现主动识别、提前排雷,为金融行业信创深水区的数据库稳定运行提供可复用的落地范式。
    听众收益:
    1、掌握金融级 SQL 治理的全生命周期方法论,获取高风险 SQL 识别、优化的可复用工具与规则体系;
    2、了解 OceanBase 数据库在核心系统的落地实践,学习如何通过技术创新化解国产数据库迁移伴生风险;
    3、借鉴 “左移治理” 长效机制搭建思路,实现从被动救火到主动免疫的运维模式升级,提升系统稳定性。
    个人简介:中国太平洋保险数智研究院首席数据库专家林春 负责全集团数据库信创规划、选型和全链路技术攻坚克难,支持核心和关键项目超过50个,成功带领全集团完成整体信创数据库转型,成功实施多个金融信创数据库咨询项目。第一本金融数据库信创转型专著《金融数据库转型实战:基于OceanBase》作者,获得电子工业出版社“2025优秀作者”奖项;参与编写《PostgreSQL考试认证指南》、《DBA实战手册:国产数据库选型、部署与运维优化》。OceanBase OCEC 客户专家委员会专家委员;实现金融行业深度绑定Oracle 特性、海量核心系统数据库国产化首次里程碑突破;自研国产数据库改造工作量预评估工具“指南针”,大幅提升应用改造效率,累计节省成本数千万;获得OceanBase OBCE、Oracle OCM、Postgresql PCM、MySQL OCP 认证。
  • 李越
     携程
    AIOps 算法专家
    演讲主题:多 Agent 协同驱动的 AI 共建 AIOps 体系
    主题简介:本次分享为携程多 Agent 智能排障方案实践,聚焦多业态、多 BU 架构下 AIOps 落地的核心痛点,拆解跨部门数据打通、专家经验沉淀、智能体协同编排的全流程方案。围绕 “总控 Agent + 专业子 Agent” 架构,分享跨域数据标准化、运维知识沉淀、多 Agent 编排的关键工程实践。总结跨 BU 共建 AIOps 体系的组织协作、技术选型与工程化踩坑经验,为中大型企业 AIOps 落地提供可复用参考。
    演讲提纲:
    痛点与思路:多 BU 架构下 AIOps 建设挑战,及 AI 共建模式的顶层设计
    体系架构:跨 BU AI 共建 AIOps 整体框架与多 Agent 协同排障核心设计
    关键实践:数据标准化、知识沉淀、Agent 能力编排与工程化落地
    案例与效果:典型故障多 Agent 协同处置全流程及实测指标
    踩坑总结与演进:共建协作、Agent 边界、后续优化方向
    听众收益:
    1,了解企业跨 BU 共建 AIOps 体系的组织协作与技术落地方法论,获取数据打通、经验沉淀的可复用实施路径。
    2,学习多 Agent 协同智能排障的架构设计与能力编排方案,了解从异常发现到根因定位的全链路技术实现细节。
    个人简介: 携程 AIOps 算法专家,深耕智能运维领域多年,专注于时序预测、异常检测、根因定位与 AI 智能体工程化落地。
  • 贺安辉
    博睿数据
    产品中心总监
    演讲主题:智能体协同矩阵:重塑下一代故障智能诊断范式
    主题简介: 在系统架构日益复杂与故障场景高度不确定的双重挑战下,传统运维体系已触及效能天花板。我们提出并实践了“智能体协同矩阵”这一创新架构,融合三类异构智能体:具备自主推理链的 LLM 诊断体、基于确定性规则的工作流引擎、以及能动态分解任务的知识规划体。该矩阵不仅支持智能体间的并行诊断与竞争研判,更实现了子智能体网络的深度协作,构建了从证据采集、多源分析到综合决策的完整认知闭环。系统已在多个核心业务场景实现规模化应用,显著提升了故障诊断的准确性、缩短了平均研判时间,为构建具备弹性认知和持续进化能力的新一代智能运维体系提供了完整的架构范式和实践路径。
    演讲提纲:
    1. 范式升维:从响应到认知的智能运维演进
    传统诊断瓶颈:确定性规则与不确定场景的根本矛盾
    智能体协同矩阵:构建具备“认知弹性”的下一代诊断体系
    2. 架构深解:三类智能体的认知分工与协同进化
    认知型智能体:基于 LLM 的推理链构建与不确定性决策
    执行型智能体:确定性工作流引擎与人类经验的固化承载
    规划型智能体:动态知识图谱的任务分解与自适应路径规划
    协同矩阵:竞争、补偿、验证的多模态协同机制
    3. 价值释放:关键场景实践与系统性效能跃迁
    金融核心交易链路的诊断实战:从告警到根因的精准穿透
    效能指标体系:准确率、时效性、可解释性的三重突破
    4. 核心认知:智能体协同的边界、进化路径与运维组织转型启示
    听众收益:
    1. 掌握高阶范式:获取“智能体协同矩阵”这一行业前沿架构的系统性认知。
    2. 借鉴完整路径:获得从架构设计、关键技术到规模化落地的全链路实践图谱。
    3. 预见未来趋势:洞察智能运维从“工具辅助”到“认知协同”的演进方向与机遇。
    个人简介: 贺安辉,目前担任博睿数据产品中心负责人, 17年智能运维领域从业经历,曾供职于中国工商银行、蚂蚁集团等企业,对运维体系、技术、产品形态和方法论有丰富的经验。
  • 宋凯
    高效运维社区
    资深技术专家
    演讲主题:智能体的工程化之路:构建透明、可信的 Agentic AI 核心范式
    主题简介:随着 Agentic AI 从概念原型走向产业核心,其工程化落地面临系统复杂与行为不确定的双重挑战。本议题将深入探讨,如何通过可观测架构、可追溯决策与可审计流程的工程化设计,为自主智能体系统注入必要的透明度与可信度,从而破解规模化应用的核心瓶颈,推动智能体技术从实验性工具迈向可靠的生产力引擎。
    听众收益:
    1、理解 Agentic AI 工程化落地的核心挑战与破局思路。
    2、掌握构建透明、可信智能体系统的关键设计原则。
    3、获取在开发、运维中实践可信 Agentic AI 的可行路径。
    个人简介:宋凯,具有 DevOps 及相关领域14年工作经验,前五八到家 DevOps 平台负责人。在多个大型企业中作为 DevOps 教练,落地实施过DevOps 解决方案,其中包括农行、交行、中信银行、民生银行、浦发银行、浙江农商、上交所、中金所、海通证券、中泰证券、光大证券、国金证券、移动、电信、山东电力等,提供组织级、项目级 DevOps 咨询服务,DevOps 过程改进及方案的设计和落地,擅长 CICD 领域相关的数据链、工具链及 DevOps 平台流水线建设。具备 DevOps 领域专业技术认证培训资质如下:
    DevOps Enterprise Coach 国际认证
    中国新一代 IT 产业推进联盟 DevOps 专家
    DAOPS 基金会金牌讲师
    DOF 认证讲师
  • 吴义平
    科大讯飞
    AI 工程院云平台研发总监
    演讲主题:从范式革新到效能跃升:科大讯飞评测 Agent 的应用落地实践
    主题简介:在大模型快速发展的背景下,效果评测面临一致性难对齐、评测效率低、机评结论采纳率低等行业难题。我们通过解构化五维评测范式,将评测需求按场景-分类-维度-要素点-指标逐层拆解,结合结构化评价体系、评委能力增强和模型偏好对抗,提升评测稳定性与人机一致率,实现评测过程高度仿真。采用“用例+维度”双驱并行调度引擎,结合弹性算力池动态分配,实现单轮评测最快10分钟内完成,且支持百万级评测集扩展。该方案已在星火大模型内容创作、内容风控、搜索、翻译等场景大规模应用,评测效率提升超8倍,人机一致率平均90%+,有效支撑业务快速迭代。
    演讲提纲:
    1、为什么大模型效果评测没有固定范式
    2、理想的评测体系概览
    3、智能体时代带来的技术挑战
    4、星评测系统关键设计
    5、星评测如何实现评测规模化应用
    6、收益分析及展望
    听众收益:
    1、稀缺实践:创新大模型评测范式,揭示从混沌到标准化的关键路径
    2、即插即用:提供可复用的场景化评测模板,支持全生命周期自定义,适配内容生成、文本翻译、Agent 等主流场景;
    3、避坑指南:规避人人对齐难、评委模型主观偏差等常见坑点,减少评测团队试错成本。
    个人简介: 2014年加入讯飞,当前任AI工程院云平台研发总监,主管 AICloud 平台 EP 方向,深度参与了讯飞语音云日均 PV 从亿到千亿的演进,主导了星火(大模型)、AIUI(人机交互系统)、AIPaaS(一站式AI开发)、星辰 MaaS(一站式模型训推)等平台的 AI 云原生基础设施、中间件、微服务架构、DevOps、大模型评测系统研发与落地,擅长大规模生产级AI推理工程云化架构、云原生基础架构、SRE 可靠性工程、大模型评测,在 AI/人机交互/模型微调平台化以及大语言模型评测领域有丰富的实践经验。
  • 梁健聪
    货拉拉
    大数据智能运维负责人
    演讲主题:货拉拉大数据智能运维 AI Agent 探索实践
    主题简介:货拉拉大数据智能运维体系1.0以自动化底座为核心,通过平台化能力实现批量任务执行、自动化发布、资产管理等功能,有效降低人工重复操作、变更遗漏及误操作带来的风险。然而,仅依靠自动化仍难覆盖复杂多变的运维场景,例如告警噪声高、根因定位难、成本波动难以及时识别等,使得人效提升空间受限。随着大模型时代的到来,大数据运维体系迎来新一轮演进--智能运维2.0。通过引入大模型能力、AI Agent 等能力,可实现从“自动化执行”向“智能化决策”迈进,构建新一代更高效、更敏捷、更可靠的大数据智能运维体系。
    演讲提纲:
    •货拉拉大数据运维1.0:自动化带来的价值与无法覆盖的复杂场景
    •AI Agent 落地实践:根因诊断、故障自愈,人效提升80%
    •未来演进规划
    听众收益:
    •了解货拉拉大数据运维体系从自动化到智能化的演进路线
    •了解 AI Agent 在运维场景关键作用与应用方式
    •了解构建智能运维体系的思路,为提升平台稳定性和运维效率提供参考。
    个人简介:梁健聪,现任货拉拉高级 SRE 工程师,专注于大数据稳定性建设及自动化、智能化运维实践,具有丰富的大数据运维体系优化与故障治理经验。
  • 陈文潇
    华为 天才少年
    技术专家
    演讲主题:用 AI 管 AI:智算万卡集群故障诊断的 Agent 实战
    主题简介:针对智算万卡集群日志量大、故障模式复杂的痛点,我们构建了异常日志压缩、RC 上下文推理等一系列专业算法,还原故障传播路径并推导故障根因;在科大讯飞X1、黑龙江移动等局点的验证中准确率80%+,原先依赖专家定位数小时的疑难问题缩减至10分钟内自动诊断,大幅降低故障恢复时长,用 AI 管 AI 的运维理念获客户认可。
    演讲提纲:
    一、背景与挑战:痛点一:智算万卡集群日志量大;痛点二:故障模式复杂
    二、核心技术方案:
    2.1 专业算法体系:异常日志压缩算法,RC 上下文推理算法,其他系列专业算法
    2.2 智能诊断能力:还原故障传播路径,推导故障根因
    三、实际应用效果
    3.1 验证局点:科大讯飞X1
    3.2 关键效果:准确率:80%+,诊断时效:数小时 → 10分钟内,效率提升:自动诊断替代专家定位
    3.3 实际 CASE
    四、价值与成果
    大幅降低故障恢复时长;创新理念:"用 AI 管 AI "的运维模式;获得客户高度认可
    听众收益:
    1.了解智算集群故障诊断的相关知识
    2.了解如何通过智能的方式,提高故障诊断效率
    3.了解到大模型搭建 Agent 的范式,可以泛化到其他领域
    个人简介:清华大学计算机博士,研究方向聚焦深度学习在 AIOps 中的创新与应用。入职后持续在 AIOps 领域深耕,将前沿 AI 技术引入 ADN 业务场景,解决故障领域痛点问题,主导智算故障 Agent、北向智能体、智能北斗等多个智能体创新项目,RC 上下文推理、API 自动生成、服务流量还原等关键算法技术已落地商用。
  • 毕鸣一
     腾讯云
    RUM 平台技术负责人,性能工程高级工程师
    演讲主题:Agent 驱动的全链路研发效能提升实践
    主题简介:在研发实践中,我们面临多重效能困境:需求开发阶段,工程师在重复的 CRUD、配置管理等标准化工作上消耗大量时间;问题响应环节,故障定位需要在日志、监控、代码间反复切换;测试运维阶段,测试工具和可观测平台等系统各自孤立,信息无法流转;面对复杂问题时,从发现到修复可能耗时一整天,甚至引发回滚事故。这些痛点本质反映了两个核心矛盾:重复性工作占比过高,工程师创造力被消耗在机械性任务上;系统间信息孤岛严重,强烈依赖人工历史经验串联,随着 AI Agent 技术成熟,我们看到破局的可能性——通过 Agent 驱动的全链路协同,让 AI 从单点辅助进化为全流程参与者,在需求开发、问题响应、测试运维、自闭环治理等环节形成智能化协同,从根本上重构研发效能。
    演讲提纲:
    1.Agent 进化:从 Copilot 到全链路协同
    2.需求开发:场景驱动的智能开发实践
    3.问题响应:知识库+推理定位根因方法
    4.测试运维:MCP 打通测试与可观测体系
    5.DevOps 自闭环的实践尝试
    听众收益:
    1、了解 Agent 智能体在多个 DevOps 环节的提效实践方法及效果
    2、了解 Agent 智能体与 Rules、MCP 的组合应用方法实践
    3、共同探索在 DevOps 自闭环方向,特别是复用历史经验、降低人力成本等方面,提供可落地的前瞻思路。
    个人简介:深耕性能工程平台建设领域多年,先后负责过手机 QQ、QIM、TIM、腾讯会议等产品的性能稳定性专项及工具平台的研发工作,当前负责腾讯云多个(RUM、TMF、TCMPP)性能稳定性可观测产品的平台建设;先后参与过多个 ToC、ToB和ToG 的平台建设;进行过多次公有云、私有云、混合云的项目部署;落地过亚太、中东、北美、欧盟等多个国际化项目的交付实施。
  • 曾庆国
    阿里巴巴
    高级技术专家
    演讲主题:大规模推理时代的 AI Infra 可观测实践
    主题简介:随着生成式 AI 进入大规模应用阶段,AI 基础设施(AI Infra)正经历从“可用”向“高效、稳健”的范式转移。在大规模推理场景下,GPU 利用率的微小波动、RDMA 网络的瞬时拥塞,乃至模型算子在不同卡型上的性能偏移,都会直接影响最终的用户体验与运营成本。
    本演讲将深度揭秘阿里巴巴在支撑万亿参数模型大规模推理时的可观测实践。我们将探讨如何构建覆盖芯片级、计算节点级、网络级到模型应用层的全链路观测体系,分享如何通过 eBPF、高频采样与流式计算技术,解决 AI Infra 全栈可观测的痛点。此外,重点探讨我们在 AIOps 方向的探索以及如何实现自动化的 AI Infra 稳定性守护Agent。为听众提供一套 AI 驱动的 AI Infra 可观测标准方案。
    演讲提纲:
    1.大规模推理时代的观测新挑战
    2. 阿里巴巴全栈 AI 可观测架构实践
    3. AI Infra 的可观测建模 (UModel) 实践
    4. 走向自动化:AI Infra 智能守护
    听众收益:
    获取行业标准: 了解一线云厂商在大规模 AI 推理场景下的可观测技术栈与指标体系。
    解决实战痛点: 构建覆盖芯片、计算节点、网络到模型应用层的全链路观测体系。
    技术前瞻: 学习 eBPF、AIOps 等新技术在基础设施层面的创新应用经验。
    个人简介:曾庆国(悦达),阿里巴巴 高级技术专家,KubeVela 社区 Maintainer。长期从事可观测、应用持续交付、基础设施管理等云原生领域,阿里巴巴 Prometheus 服务负责人。ArchSummit、Gopher、SDCon、开源峰会等大会讲师。
  • 杨经纬
     百度
    Comate AI IDE 负责人
    演讲主题:Coding Agent 在大规模研发体系中的落地实践
    主题简介:在大模型能力快速演进的背景下,Coding Agent 正从辅助工具走向研发基础设施。但在真实的大规模研发体系中,如何解决可控性、工程融合与规模化推广难题,仍是行业共同挑战。
    本次分享将结合 Comate 等 AI 基础设施在公司内部的落地实践,系统介绍智能体驱动研发范式的架构设计思路,实现 AI 能力在研发场景中的稳定接入与高效调用。同时复盘规模化推广过程中的关键策略与踩坑经验,分享研发人员使用、显著提升智能体使用效果与研发效率的实践路径。
    演讲提纲:
    一、背景与挑战:在大规模企业中,规模化落地为什么难?
    在复杂的研发体系中,Coding Agent 的落地不仅面临代码可控性、工程上下文缺失与规范冲突等技术挑战,还需要解决组织信任、流程融合与规模化推广带来的系统性问题。
    二、如何构建研发工作台能力闭环
    通过深度接入工程上下文与规范体系,构建生成、预览、调试、修复到提交的完整闭环,使 AI 能力嵌入默认研发流程并具备可控、可回溯与可扩展特性。 三、规模化推广策略:如何实现全员落地
    以试点验证为起点,建立可量化采纳指标与快速反馈机制,推动多角色协同与工作流集成,逐步实现从自发使用到组织级默认集成的转变。
    四、数据结果与效果验证
    通过用户规模增长、采纳率变化与效率提升等核心指标持续验证价值,确保 Coding Agent 从创新工具转变为可衡量、可复用的生产力能力。
    五、踩坑与反思
    在实践过程中复盘模型依赖、性能稳定性、规范冲突与用户认知成本等问题,不断优化工程治理与智能体能力之间的平衡。
    六、下一阶段演进方向
    面向多 Agent 协同、智能测试与 DevOps 深度融合演进,推动 Coding Agent 从单点辅助走向完整研发智能体体系。
    听众收益:
    1、系统掌握 Coding Agent 在大规模研发体系中的落地方法论,理解其中的关键设计思路与实施路径;
    2、深入了解如何解决代码可控性、工程融合与规模化推广难题,获得可直接复用的架构设计与组织推进经验;
    3、通过真实规模化数据与踩坑复盘,认知 Coding Agent 提升研发效率的有效策略,明确企业推进智能研发的实践方向。
    个人简介: Comate AI IDE 负责人,百度工程效能部前端研发经理,负责 AI 原生研发工具链与智能研发工作台建设。
    主导推出 Comate AI IDE,完成智能体驱动研发范式的核心架构设计与工程化落地,构建覆盖预览、调试、规范驱动与多端协同的智能研发体系。半年内推动平台成为公司核心 Coding 基础设施,显著提升智能体采纳率与研发效率。
    长期聚焦软件研发智能化与 DevOps 体系建设,国家高质量专项《基于大模型技术的工业领域智能化开发工具项目》技术骨干。
  • 陈佳
    深圳腾讯科技有限公司
    端服务应用合规负责人
    演讲主题:Agentic Mobile:重塑端侧运维,构建自主进化的 SRE “最后一块拼图”
    主题简介:随着 Agentic 浪潮的兴起,服务端运维已率先实现自主闭环,但移动端仍是自动化的“洼地”。主题将聚焦 “Agentic Mobile” 这一全新运维范式——即赋予移动端运维“自主感知、自主规划、自主执行”的智能体能力。我们将深入剖析从传统运维到 Mobile Agent 到 Agentic Mobile 的演进路径,分享如何通过多模态感知与精准触控技术,解决大模型在复杂 UI 场景下的“落地难”与“成本高”问题。本议题旨在帮助企业打破传统边界,将移动端设备正式纳入 SRE 统一运维视野,提供一套系统性的方法论,彻底打通智能运维触达终端设备的“最后一公里”。
    演讲提纲:
    1破局引入:智能体时代的端侧运维新范式 - 从 Mobile Agent 到 Agentic Mobile
    2场景定义:那些传统运维无法触达的端侧场景(质量、合规与稳定性等)
    3方案全解:构建具备“思考力”的 Agentic Mobile 端云一体化平台
    4技术拆解:打通“模型决策”到“端侧执行”的闭环
    4.1操控层:让大模型掌握手机操作系统的“语言”。
    4.2认知层:多模态视觉下的界面语义理解与动态适应。
    4.3精确层:从模糊指令到精准坐标点击的技术方案。
    4.4效能层:Token 精细化管理与 ROI(投入产出比)优化。
    5成效洞察:实战案例分享
    6趋势研判:多模态大模型驱动下的运维新思考

    听众收益:
    1.了解如何将移动端设备纳入 SRE 统一运维视野,突破传统框架限制,掌握打通运维触达终端设备“最后一公里”的系统性方法。
    2.深入拆解大模型驱动手机进行精确交互(各分辨率适配、复杂 UI 理解)的核心技术,获取一套可直接复用的 Agentic Mobile 规划、感知、行动的架构方案,快速扩展企业自动化运维的能力边界。
    3.洞察多模态大模型在端侧自动化中的能力上限与强化策略,激发对“智能体+异构设备管理”的深度思考,为企业后续的 AI 落地提供前瞻性指引。
    个人简介: 腾讯 TDS 团队客户端开发专家,现全面负责 tds-Rightly 应用合规平台的规划、研发与运营。从 2022 年起,与团队共同完成合规检测与监控体系的「从 0 到 1」建设,打造覆盖代码、灰度到线上全链路的高质量检测、监控与防劣化机制,为 QQ、腾讯视频、腾讯新闻、QQ浏览器等数几十款千万级别用户产品持续输出稳定、高效的合规能力。在业务实践中,率先将生成式 AI 模型引入合规流程,深度融合「AI+自动化+云真机」技术栈,在权限合规、信息收集、系统能力调用等关键场景实现分钟级级回归与风险预警。此前,曾负责 QQ 启动性能、稳定性优化与模块化重构等核心基础架构工作,拥有多年客户端开发与测试经验,擅长以自动化与数据化手段解决业务基建和质量防劣化难题。
  • 才振功
     杭州谐云科技有限公司
    副总裁 / 浙江大学软件学院 副研究员、博士生导师
    演讲主题:多智能体协同的复杂微服务系统故障诊断与根因定位
    演讲提纲:
    复杂微服务系统包含大量相互连接的在线服务和应用,随着业务和环境的变化持续生长、动态适应,其服务质量、可用性保障以及可持续演化能力都面临巨大的挑战。本次报告聚焦微服务系统运行时故障诊断与根因定位技术,探讨日志、指标、轨迹、拓扑等多模态运维数据融合技术,实现对复杂微服务系统的深入理解和分析;分享基于多智能体协同的复杂系统故障诊断与根因定位方法,实现跨模态、跨层次的深度时空推理,提升故障预警、故障定位及故障诊断能力。
    听众收益:
    1.了解日志、轨迹、指标、拓扑等多维运维数据融合技术,实现具有泛化能力的运维技术;
    2.分享基于时序预测技术的微服务性能与故障预警技术,获取微服务故障预警能力;
    3.共同探讨基于多智能体的微服务根因定位关键技术,强化故障定位决策能力。
  • 韩光祖
    微博
    高级运维架构师 
    演讲主题:从传统 AIOps 到 LLM 驱动:微博智能运维体系的演进与落地践
    主题简介:在云原生与大规模分布式架构成为常态的背景下,传统依赖规则和单点算法的 AIOps 正面临复杂度与效率的双重挑战。本次分享将结合一线实践,梳理我们如何从传统 AIOps 出发,围绕指标、日志、告警、拓扑、变更和业务指标构建统一数据底座,在此基础上逐步引入大语言模型(LLM),探索“数据驱动”向“认知驱动”的升级路径。内容将重点介绍:1)传统 AIOps 与 LLM AIOps 在数据利用、算法范式和人机交互上的关键差异;2)如何利用 LLM 做日志语义理解、知识抽取和故障分析报告生成;3)在自愈、弹性伸缩、工作流编排等能力之上,构建有人在环的自动化闭环。希望为有志于落地智能运维体系的团队提供可复用的思路与踩坑经验。
    演讲提纲:
    一、传统 AIOps 能力建设现状
    1. 宏观背景
    - 云原生、微服务、多云/混合云带来的复杂度
    - 传统运维与传统 AIOps 的瓶颈:告警风暴、排障效率、经验依赖
    2. 数据与监控基础
    - 指标、日志、告警、变更、拓扑、业务指标等数据底座
    - 多源数据统一接入与 ETL、数据质量控制
    3. 传统 AIOps 核心能力
    - 异常检测、智能告警(降噪、聚合)、预测预警、根因分析
    - 自愈、弹性伸缩、工单自动化等执行能力
    4. 价值与局限
    - 在 微博 场景下带来的收益
    - 局限:对非结构化数据利用不足、对专家经验沉淀不充分、人机交互门槛高
    二、LLM 驱动的 AIOps:能力与差异
    1. LLM 与传统 AIOps 的核心区别
    - 数据利用:从结构化为主 → 充分利用日志原文、工单、文档、聊天记录
    - 智能范式:从“单点模型” → “通用大脑 + 多模型编排”
    - 人机交互:从大屏、规则面板 → 自然语言对话(ChatOps)
    2. LLM 在运维场景中的典型能力
    - 非结构化日志语义理解和关键信息提取
    - 面向知识库、工单、文档的检索增强问答(RAG)
    - 自动生成 RCA 报告、复盘文档、操作步骤建议
    - 自然语言 → 指标查询 / 拓扑查询 / 工单操作
    3. 对知识与经验沉淀的影响
    - 自动从历史工单、文档中抽取“故障–症状–根因–解决方案”
    - 反哺知识图谱与规则体系
    三、落地路径与实践经验
    1. 第一阶段:不改底座,先加“LLM 助理”
    - 利用现有监控+日志+AIOps 能力,引入 LLM 做:
    - 日志解读、问题解释、知识问答
    - 自动生成分析/复盘报告
    - 风险策略:只读不写、不直接操作生产
    2. 第二阶段:LLM 融合传统 AI 引擎,做“分析 + 决策建议”
    - 将异常检测、根因分析、预测引擎结果接入 LLM
    - 由 LLM 统一生成“结论 + 证据链 + 优先级 +推荐处理方案”
    - 人来做最后决策与执行确认
    3. 第三阶段:LLM + 工作流编排 + 自愈,形成“有人在环的半自动闭环”
    - 与现有自愈、弹性伸缩、工单系统、配置中心、流量调度联动
    - 低风险操作自动闭环,高风险操作强制人工审批(Human-in-the-loop)
    - 反馈与持续学习:
    - 对 LLM 输出的“有用/无用”反馈
    - 对策略效果(误报、漏报、MTTR)评估,驱动模型和策略迭代
    四、关键挑战与应对策略
    1. 技术挑战
    - LLM 的上下文、安全与幻觉问题
    - 与现有监控/工单/知识库系统的集成成本
    2. 组织与流程挑战
    - 运维团队对“AI 介入决策”的信任与接受度
    - 职责边界:AI 做建议、人做最终责任人
    3. 应对思路
    - 从低风险场景试点,小步快跑、持续迭代
    - 建立清晰的分级自动化策略和回滚机制
    - 打通数据闭环,持续量化效果(MTTD/MTTR/误报率等)
    五、总结与展望
    1. 核心观点回顾
    - 传统 AIOps 提供“数据 + 算法 + 自动化”底座
    - LLM 提供“理解 + 推理 + 对话”大脑
    - 二者结合,才能形成真正端到端、可演进的智能运维体系
    2. 对运维角色的变化
    - 从“救火工” → “系统设计者 + 自动化治理者”
    - 从体力劳动转向智力创造和业务价值对齐
    3. 未来展望
    - 更深的人机协同:LLM 参与架构评审、变更风险评估
    - AIOps 从“支持业务运行”走向“驱动业务创新”
    听众收益:
    1、了解智能体在故障管理中的落地方法论,拆解多场景应用路径,获取直接可复用的实施方案;
    2、共同探索企业故障管理的发展方向,在保障系统可用性、强化运维决策、降低人力成本等方面,提供可落地的前瞻思路 。
    个人简介:韩光祖,2017 年加入 微博 以来,长期聚焦于大规模互联网体系下的服务稳定性与智能运维实践,先后参与和负责过 微博 IM、Feed 流、超话、广告等多条核心业务链路的运维工作,经历并主导过多次全站级热点保障与服务演练,对超大规模、高并发场景下的稳定性体系建设、容量治理和复杂故障处置,有较为系统、端到端的一线实战经验。
    目前,我主要负责 微博 平台级运维体系的整体规划与演进,重点在于:
    围绕监控、日志、告警、拓扑、变更、业务指标等多源异构数据,构建统一的运维数据底座和观测体系;
    在既有 AIOps 能力之上,引入大语言模型(LLM),探索从“指标驱动”到“认知驱动”的智能运维范式升级,将经验沉淀为模型与知识图谱;
    通过自愈、弹性伸缩、工作流编排等自动化手段,打通从异常发现、根因分析、风险评估到执行闭环与反馈学习的全链路,实现有人在环的高可靠自动化运维。
    在本次大会中,也非常期待和大家一起深入交流:
    如何在真实复杂业务环境下,把传统 AIOps 与 LLM 能力做深度融合,而不是简单叠加概念;
    在类似 微博 这样的大规模平台场景中,如何用“数据 + 模型 + 自动化 + 组织协同”构建可持续演进、可度量价值的智能运维体系。
    也欢迎会后多多拍砖,一起把智能运维这件事往前再推一小步。
  • 孙文韬
     国信证券股份有限公司
    资深技术专家
    演讲主题:ChatOps 进化论:从 AI Agent 到 OpenClaw 的智能对话运维实践
    主题简介:对话即生产力——ChatOps 正迎来从“指令执行”到“自主决策”的范式跃迁。本分享聚焦大模型在对话式运维领域的落地路径,系统展示从智能运维机器人、AI Agent 到自主执行体 OpenClaw 的技术图谱。
    重点剖析大模型如何重构 ChatOps 交互逻辑,赋予机器人理解模糊意图、多轮对话推理与跨系统执行的能力;并解读 OpenClaw 这一面向对话运维的智能体框架,如何实现从“人机对话”到“机器自主行动”的跨越。分享围绕四大运维场景展开:应急场景实现故障通报自动催办与审批流转;值班提醒场景智能排班与即时触达;定时提醒场景动态编排与对话确认;日程管理场景联动邮件、会议系统与待办清单,自动解析会议纪要强化日程。全面呈现智能对话运维在真实生产环境中的落地成果。
    演讲提纲:
    1、问题和技术背景
    2、ChatOps 进化论:从 AI Agent 到 OpenClaw 的智能对话运维实践
    3、收益和展望
    听众收益:
    1、深度解析从“大模型”到“AI Agent”的能力封装逻辑,并揭示 OpenClaw 如何将 AI Agent 从原有的 chatops 的单点执行者升级为跨系统协同的“数字运维专家”。
    2、本分享面向运维工程师、SRE 及 AI 技术决策者,提供从技术选型到场景落地的全视角参考,共同探索大模型时代的运维新基建。
    个人简介:孙文韬,国信证券资深技术专家,现担任运维 AI 提效、应急协同与 ChatOps 等领域技术负责人。10年金融及 ToC 平台架构和研发经验,曾就职于华为、蚂蚁集团、腾讯科技,负责金融支付、在线视频等高并发、高可用系统的研发与架构演进。
  • 冷恒杰
    百度在线网络技术有限公司
    资深 SRE 运维工程师
    演讲主题:AI 驱动构建智能化风险预防体系
    主题简介:本次演讲内容侧重于介绍在生成式 AI 技术发展浪潮中 SRE 团队的挑战和机遇,以及如何运用生成式 AI 技术驱动数字化质量保障从规则式转向 AI 决策式,提升风险预防方向的整体效能;同时也会介绍当前 AI 技术在新一代数字化质量保障体系中的具体实践案例和效果;演讲内容将包含如下关键部分:
    1.生成式爆发带来的挑战:讲述生成式 AI 技术爆发式增长,在促进了业务团队提效同时,也加剧了系统的不确定性;
    2.规则式质量保障的短板:介绍当前基于工程规则的数字化保障的落地方式、效果和短板问题;如:系统复杂性的提升,人工方式无法及时支持增量的规则开发;工程规则的递增,带来更高规则维护成本,且新增风险依赖传统的人工处理方式无法及时跟进;
    3.规则式质量保障转向 AI 决策式质量保障:分别举例介绍,AI 技术在风险识别、风险分析、风险定位和治理方向的落地思路和实践效果;
    4.智能体运维(Agentic Ops)的技术展望:由AI协同转向 AI 自主,打造运维智能体推动智能体运维是未来的发展趋势;如何做好面向智能体运维体系的 SRE 保障工作 (如算力资源运维、模型运维、Agent 运维等不同层级视角),决定了 AI 技术和 SRE 体系未来融合的深度和效果;演讲最后,将根据当前已有的思考和探索提出部分技术方向的展望。
    演讲提纲:
    生成式 AI 技术和 SRE 运维
    基于规则的质量保障方式及短板问题
    AI 技术的机遇 - 规则式保障转向 AI 决策式保障
    AI 重构规则式风险识别
    AI 提升风险分析精准度
    AI 赋能风险定位和治理
    智能体运维(Agentic Ops)的技术展望
    听众收益:
    1. 风险预防体系从“工程规则”转向“AI 推理决策”,借鉴百度 SRE 实践经验,了解如何基于 AI-agent 重构报警有效性识别、灰度发布能力识别等繁琐的静态规则,实现风险识别的灵活扩展,让风险预防目标更匹配用户的场景需求。
    2. 将 AI 能力应用于“风险度量”与“风险治理”中,从治理优先级优化到最终落地修复,结合运维规范知识体系,构建 AI 主导、人机协同的风险闭环流程,提升整体治理能效。
    个人简介:冷恒杰,目前就职于百度在线网络技术有限公司,是运维部资深 SRE 运维工程师,先后负责过:百度 APP、信息流推荐、商业变现等多个关键业务的稳定性运维工作,目前是百度大商业稳定性负责人;当前聚焦在高可用架构、数字化&智能化运维实践创新等技术领域,致力于通过技术创新提升稳定性建设效能、驱动风险左移降低潜在故障损失;当前主导的数字化&智能化免疫体系,在百度内部已纳管近百个业务的预防、发现能力方向。
  • 张铭辉
    阿里巴巴
    高级开发工程师
    演讲主题:加速 Agent 迭代:使用 LoongSuite 构建你的 AI 数据飞轮
    主题简介:在 AI Agent 时代,应用迭代的重心正从“代码逻辑”转向“数据闭环”。与传统微服务不同,Agent 的性能优化极度依赖线上真实 good/bad case 的反哺,这便构成了“开发-部署-观测-优化”的数据飞轮。然而,异构的应用架构与语言差异,使得高质量、标准化的数据采集成为瓶颈。
    本次演讲将介绍开源数据采集套件 LoongSuite。基于 OpenTelemetry 标准,LoongSuite 通过无侵入探针技术,解决了 AI 场景下数据获取的复杂性问题。我们将深入探讨如何利用采集到的 Trace 链路数据,自动化清洗多轮对话数据集并构建 Agent 的长期记忆。通过打通从观测到优化的数据链路,助力开发者实现 Agent 的快速自我进化与持续迭代。
    演讲提纲:
    一、 AI 时代的数据飞轮:从观测到进化
    1.1 迭代范式转移:对比传统微服务与 AI Agent 迭代链路,揭示数据回流对 Agent 调优的决定性作用。
    1.2 数据采集的挑战:面对异构架构与多样化语言,如何高效获取标准化、高质量的 AI 过程数据?
    二、 LoongSuite:无侵入采集的 AI 观测利器
    2.1 标准化的力量:为什么基于 OpenTelemetry 构建 AI 观测生态是必然选择。
    2.2 技术深潜:LoongSuite 无侵入探针的实现原理与核心优势(高性能、零代码侵入)。
    2.3 全链路视野:如何通过 LoongSuite 还原 Agent 内部推理与外部工具调用的全过程。
    三、 实战演练:将 Trace 转化为 Agent 的进化动力
    3.1 评估场景:现场演示如何从海量 Trace 数据中自动化提取、清洗出高质量多轮对话 Demo。
    3.2 记忆增强:基于采集到的真实数据流,构建 Agent 的长期记忆系统,实现个性化与能力演进。
    四、 展望:数据驱动的 Agent 自治时代
    4.1 从手动分析到自动微调再到 RL:数据飞轮的终极形态。
    4.2 LoongSuite 开源社区规划与未来生态图景。
    听众收益:
    1.掌握 AI 数据飞轮构建方法: 理解 Agent 迭代中数据回流的闭环机制,掌握从观测到优化的落地路径。
    2.解锁低成本标准化采集方案: 学习利用 LoongSuite 无侵入探针技术,低成本解决异构 Agent 应用的数据采集难题。
    3.获取数据资产转化实战经验: 掌握将原始 Trace 链路转化为多轮对话数据及长期记忆的实操技巧,加速 Agent 进化。
    个人简介:OpenTelemetry Member, LoongSuite Maintainer, Spring AI Alibaba PMC。
    阿里巴巴大模型可观测数据采集负责人。负责大模型服务、大模型应用可观测多语言探针,Generative AI 可观测语义规范的建设。 参与 Java、Golang、Python 等多语言进程探针孵化和演进,参与 LoongCollector(原 ilogtail) 数据采集工具演进。
  • 张磊
     阿里巴巴
    高级开发工程师
    演讲主题:基于评估工程的 AI Agent 的质量保障与优化实践
    主题简介:AI Agent 正从 Demo 快速走向生产化与规模化,但其质量风险不再仅是“可用性”,还包括任务成功率、工具调用正确性、证据链可追溯性、指令遵循与安全合规等维度。由于模型与提示词迭代、外部工具依赖、长链路推理与多 Agent 协作带来的分布漂移与非确定性,Agent 常出现发版后效果回退、线上偶发失败与难以定位的隐性缺陷。
    本次分享将深入探讨基于评估工程的 AI Agent 质量保障体系,介绍 AI Agent 评估技术框架,分享如何构建全链路观测体系,智能化地完成数据集构建,并在Agent Trace 与 Session 维度进行深度评估,最终实现发版前的质量卡点和运行时的持续监控,为 AI Agent 的规模化落地提供系统化的工程方法论和可落地的实践经验。
    演讲提纲:
    1.AI Agent 规模化落地的核心挑战:
    传统监控指标的局限性难以覆盖 Agent 特有的质量维度。
    Agent 提供规模化服务后,遇到发版后效果退化与运行时稳定性的双重风险。
    2.AI Agent 评估工程的技术框架:全链路观测 → 数据集准备 → 实验回放 → 评估器执行 → 对比分析 → Agent 迭代优化的数据飞轮。
    3.高效、高质量的评测数据准备:
    构建高质量数据集的基本原则,分享 Agent 数据集构建的落地经验。
    统一Pipeline:关键字段抽取→特征提取→语义去重→数据质量判定→AI 标注/扩写,智能化地基于线上观测数据构建高质量数据集。
    4.构建强大的评估器:
    常见的评估器类型:LLM-as-Judge/Code Judge/Human Judge,选择适合 Agent 场景的评估器。
    Agent Trace & Session 维度的评估:解决 Trace、Session Level 的超大上下文评估的问题,评估回答/任务执行的质量、证据链是否充分或效果不佳的根因。
    5.落地场景:
    发版前的质量门禁:通过 CI 集成评估,对 Agent 进行自动化实验,完成数据集回归测试与多版本效果对比。
    运行时的持续监控:线上 Online 评估,实现 Agent 应用异常检测、自动告警与快速止血。
    6.实践案例:以阿里巴巴内部某 Agent 开发为例,分享从回退到稳定的评估迭代实践。
    听众收益:
    1.获得一套可复用的 Agent 评估工程框架:从可观测数据建模、自动化评测数据集构建到离线回归与线上持续评估的完整链路。
    2.掌握 Trace/Session 级评估与证据链诊断方法:针对工具调用链、多轮会话、长上下文的评估方法,建立步骤-链路-会话三层指标体系与根因归因分析能力,提升可解释性与可修复性。
    3.学习将评估落到工程流程:CI 质量门禁+Online 漂移监控的双闭环实践,降低发版回退与线上偶发故障风险,并持续迭代优化 Agent 性能与效果。
    个人简介:阿里巴巴可观测-应用可观测稳定性负责人,主要负责应用可观测产品线的产品研发与稳定性建设,阿里巴巴 AI 可观测产品核心研发。 有大规模可观测数据处理、云原生及 AI 原生架构的可观测体系建设的经验。
  • 何建斌
    字节跳动
    TRAE 技术专家
    演讲主题:Self-Evolving Agent Loop:研发效率的自我进化飞轮
    主题简介:在构建 AI 编程工具 Trae 的过程中,我们坚持「用 AI 开发 AI」的原则,探索出一条让研发效率持续加速的路径: Self-Evolving Agent Loop 。在全流程落地的过程中,我们探索了从「有人在场的人机协作」到「无人值守的自动化」的演进路径,基于 Trae CLI、Skill、MCP 等能力构建了多种自动化场景。更重要的是,形成了「用自己开发自己」的递归。 当效率提升释放人力,人力投入改进产品,改进后的产品又让更多流程可以自动化——一个自我进化的飞轮开始转动。本次分享将讲述这个过程中的实践与思考。
    演讲提纲:
    - 从第一天起的承诺 :为什么我们用 Trae 开发 Trae
    - 全流程落地 :Trae 在研发各环节的应用
    - 从人机协作到智能体 :从「有人在场」到「无人值守」的演进
    - 飞轮效应 :产品改进 → 效率提升 → 产品改进的正向循环
    - 我们的思考 :自我进化的研发范式
    听众收益:
    - 获得 Agent 在研发全流程落地的实践思路,了解如何从需求到上线实现全链路提效。
    - 了解如何基于 CLI 构建无人值守的自动化场景,并在此过程中孵化领域智能体。
    - 理解如何构建研发效率的正向循环,让产品与团队共同进化。
    个人简介:多年 AI 领域从业经历,曾任一线互联网厂商数字人团队技术负责人,主导多个 AI 产品的技术架构设计与落地。同时具备丰富的后端研发经验,负责过多个高并发、大流量系统的设计与开发。现任字节跳动 Trae 团队技术专家,负责 Trae 的商业化技术输出与企业级落地方案。
  • 陈江开
    OPPO
    安全架构师
    演讲主题:AI 安全治理:Agent 的隐私和安全实践
    主题简介:随着大模型驱动的 AI Agent 在企业中广泛落地,Agent 在其生命周期的各个环节面临全新的隐私与安全挑战——Prompt 注入攻击可绕过安全对齐,工具调用可能导致敏感数据越权流转,用户隐私缺乏有效的生命周期管控等等。本次演讲将从 OPPO 在 AI 安全治理领域的实践出发,系统分享我们在Agent 安全领域的威胁建模、防护架构与数据安全治理经验。
    演讲提纲:
    一、Agent 安全新挑战:从大模型到自主智能体
    AI Agent 与传统 AI 应用的安全边界差异
    Agent 核心环节(规划、记忆、工具调用、多 Agent 协作)的攻击面分析
    行业典型安全事件与威胁趋势
    二、威胁建模:Agent 全链路安全风险图谱
    输入层:Prompt 注入(直接/间接)、越狱攻击
    执行层:工具调用链的权限逃逸与数据泄露
    存储层:上下文窗口与长期记忆中的隐私残留
    输出层:敏感信息在响应中的无意泄露
    三、隐私保护实践:从数据分类分级到 Agent 上下文治理
    OPPO 在 Agent 安全治理中的架构选型与实践经验
    四、未来展望
    AI 安全治理的未来方向
    听众收益:
    1、了解 Agent 全链路威胁模型:系统了解 AI Agent 在规划、记忆、工具调用、多 Agent 协作等环节的安全攻击面与防护要点,建立完整的 Agent 安全认知框架。
    2、获得可落地的隐私保护方案:学习如何将数据分类分级、敏感数据脱敏等传统数据安全能力延伸至 Agent 上下文与 RAG 场景,直接应用于自身企业的 AI 安全建设。
    个人简介:OPPO 安全架构师,负责 OPPO 云原生及 AI 安全服务的解决方案架构设计,执行和落地,包括 OPPO 云安全、数据安全,AI 数据安全、Agent 安全等领域。在数据安全领域有丰富实战经验。
  • 朱学昊
     安徽移动
    AI 高级专家
    演讲主题:从日志治理到智能管控:基于大模型的运维合规智能体实践
    主题简介:在“人工智能+治理能力”政策背景下,运维合规稽核面临日志海量、识别难、响应慢等挑战。本议题将分享安徽公司基于国产化算力与聚智智能体平台,构建“ AI日志哨兵”的落地实践。系统通过“小模型预处理+大模型语义分析”双驱动架构,实现对登录绕行、密码明文、高危命令等六大稽核场景的分钟级识别与闭环处置,现分钟级风险预警、自动化合规审计与处置建议生成,帮助用户构建事中监测、实时响应的数据安全治理体系。议题将深入解析大小模型协同机制、日志治理流程重构、以及如何在保障安全合规的同时实现降本增效,为运维智能化转型提供可复用的实战路径。
    演讲提纲:
    1、背景与挑战:传统运维合规稽核的三大痛点与政策驱动
    2、技术架构解析:分层解耦、大小模型协同、国产化算力底座
    3、核心场景落地:绕行登录、密码明文、违规授权等六大稽核实现
    4、创新点与成效:日志统一处理、密码黑盒稽核、全流程闭环管理
    5、推广价值与展望:模块化复用、降本增效数据、运营商落地案例
    听众收益:
    1、掌握大小模型协同在运维稽核中的落地路径,了解如何将 AI 能力嵌入合股运维流程,实现分钟级风险识别与闭环处置;
    2、获取可复用的日志治理架构设计思路,理解如何从事后审计向事中管控转型,提升合规管控能力;
    3、了解智能体平台在运维场景中的实战经验,为企业 AI+ 运维管理转型提供参考范本。
    个人简介: 高级 AI 运维工程师,拥有19年以上通信行业 IT 系统运维与架构设计经验。深耕 AI+运维赛道,基于聚智平台打造了一线皖伴、产品配置助手、AI 日志哨兵等多个智能体标杆应用。其中,AI 日志哨兵以极低成本构建起复杂运维环境下的“事中预警+合规治理”双核心能力,实现实时运维风险感知、自动化合规审计与处置闭环,帮助用户构建实时响应的数据安全治理体系,有效破解了通信运营商在大规模复杂运维场景下的合规管控难题,让运维更安全、更合规、更高效。
  • 郑欣
    高效运维社区
    资深DevOps技术专家
    演讲主题:智能化自动测试平台搭建 OpenClow+skills
    主题简介:大模型领域发展日新月异,国家十五五规划,倡导数智化转型。本文将讨论,作为测试团队,如何从零开始建设自己的智能化测试平台,如何利用数智化测试平台更高效的完成测试领域的各项工作,探索测试领域全面智能化发展。 演讲提纲: 1.从零搭建智能化自动测试平台。
    2.使用智能化测试平台完成需求分析。
    3.使用智能化测试平台完成手工案例设计。
    4.使用智能化测试平台完成自动化脚本生成。
    5.使用智能化测试平台完成UI自动化脚本生成。
    6.使用智能化测试平台完成性能测试案例生成。
    听众收益:
    1.了解如何从零开始搭建智能化测试平台。
    2.尝试在智能化测试平台中完成测试领域各类实践。
    个人简介:曾就职于 大连创盛,EMC²,立思辰,作业盒子等企业,担任测试管理相关工作。专注于测试团队效能提升改进,敏捷化转型,DevOps 改造等相关领域的工作。
  • 张晓民
    中国移动
    数智事业部 AI架构师
    演讲主题:信创数据大模型排障 Agentic 应用落地实践
    主题简介:随着国产信创数据库在企业 IT 架构中的广泛应用及大模型技术的快速发展,数据库运维正迎来智能化转型的新机遇。本项目基于中国移动自主研发的运维图大模型,首创构建了端到端全链路智能化运维体系,通过自适应运维图构建、实时动态推演算法及流程图自适应执行器,实现运维方案自主规划、运维路径自主决策和运维操作自主执行。项目已在磐维、GBASE、OpenGauss 等数据库和18家省公司落地,显著提升运维效率、降低人工操作、增强系统可用性,并通过人机协同和可控闭环确保智能运维的可靠性与扩展性。该技术方案不仅推动企业数据库运维进入大模型时代,也为国产数据库的规模化智能化管理提供了可复制、可推广的实践路径。
    演讲提纲:
    · 项目背景与战略意义
    · 技术创新与核心能力
    · 应用落地与成果展示
    · 经济、社会效益与行业影响
    · 未来发展与推广路径
    听众收益:
    · 掌握大模型驱动的数据库智能运维方法:了解运维图大模型的构建、动态推演和自适应执行技术,获取可复用的端到端智能运维实践方案。
    · 提升运维效率与系统可靠性:学习如何通过智能化决策图实现故障快速定位、精准处置和低人工干预,显著提升运维效率和系统可用性。
    · 洞察国产数据库智能化发展趋势:探索信创数据库智能运维的创新模式及行业应用经验,为企业构建自主可控、高效运维体系提供前瞻思路
    个人简介:长期深耕 AI 技术应用研发,专注智能运维领域多年,熟悉智能体运维全场景技术栈,负责集中化智能运维场景规划与研发。深入研究大模型智能体技术,提出智能体技术设施化理念,主导研发支持用户自由定义智能体认知类型与协作方式的聚智 GraphServer 图引擎,构建聚智 AgentStack 智能体全生命周期技术栈。
  • 陈鑫
     阿里巴巴
    Qoder Agent 负责人
    演讲主题:Qoder 新一代 SWE Agents 系统颠覆传统软件研发模式
    主题简介:传统软件研发长期面临开发周期长、人力成本高、重复性工作繁重等挑战。开发者将大量时间消耗在代码编写、调试、文档查阅和环境配置上,真正用于创造性工作的精力十分有限。 Qoder 新一代 SWE Agents 系统应运而生。它不是简单的代码编写工具,而是一个具备自主规划、执行和验证能力的智能软件工程体系。系统能够深度理解代码语义和项目上下文,像一个资深软件团队一样进行需求分析、方案设计、代码实现和问题诊断。通过多智能体协作机制,Qoder 可并行处理复杂任务,实现从构想到交付的端到端自动化。 这一变革正在重塑人机协作范式:开发者从"编码执行者"转变为"架构决策者",将精力聚焦于业务创新和系统设计。本次演讲将深入解析 Qoder 的核心技术架构,展示真实场景下的落地实践,并探讨AI驱动的软件研发新范式如何重新定义行业未来。
    演讲提纲:
    一、从流程增强走向流程重塑
    1.软件研发效能的本质
    2.AI Coding 的产品与技术演进过程
    3.从流程增强走向流程重塑的必然趋势
    二、SWE Agents:重新定义软件工程
    1.什么是 SWE Agents?从被动工具到主动智能体的跃迁
    2.自主规划:需求拆解、方案设计、路径决策
    3.代码理解:深度语义分析与全局上下文感知
    4.执行验证:编码、调试、测试的完整闭环
    5.多智能体协作:专业分工,并行处理复杂任务
    三、Qoder 多智能体架构解析
    1.智能体角色设计:规划者、执行者、审查者的协同分工
    2.调度引擎:任务编排与智能体动态调度
    3.代码知识图谱:项目级语义理解与跨文件推理
    4.工具链生态:终端、浏览器、IDE 的深度集成
    5.安全可控机制:沙箱隔离、权限管控、人机确认
    四、效能数据与落地实践
    1.核心指标实测:开发效率、代码质量、交付周期
    2.场景覆盖:新功能开发、Bug 修复、代码重构、技术迁移
    3.自我实践与典型案例
    五、人机协作新范式带来的组织变革
    1.角色重构:开发者从"代码生产者"到"工程决策者"
    2.团队演进:更小的团队,更大的产出
    3.能力升级:未来工程师的核心竞争力是什么?
    4.AI 赋能而非替代:人机协作的最优解
    听众收益:
    1.洞察 AI 研发范式演进趋势,理解从"流程增强"到"流程重塑"的本质跃迁,把握软件工程智能化的战略方向;
    2.深入解析 SWE Agents 多智能体架构设计,掌握智能体协作、任务调度、安全管控等核心技术要点,获取可借鉴的系统构建思路;
    3.获取真实场景下的效能提升数据与落地实践经验,了解如何通过 AI 智能体实现研发提效、质量提升与团队能力升级的可行路径。
    个人简介:阿里巴巴资深技术专家,Qoder IDE Agent 技术负责人。带领团队积极探索 Coding Agent 能力的上限,在上下文工程、智能体架构、AI Coding 企业落地等方面有丰富一线实践经验。
  • 付强
     长沙银行股份有限公司
    AI技术专家
    演讲主题:五维一体:金融智能体中台创新实践
    主题简介:解析长沙银行在金融大模型应用中的探索与突破,围绕“算力-模型-知识-研发-评估”五维一体架构,系统讲述如何从0到1构建企业级智能体中台。课程聚焦五大核心痛点——算力成本高、模型管理难、知识消费难、业务周期长、价值评估难,逐一剖析创新解决方案,通过真实案例展示算力管理、故障应急、智能巡检、IT 服务等场景,共同探讨大模型应用创新实践思路。
    演讲提纲:
    1、破局——金融大模型应用的五大痛点。
    2、架构——五维一体智能体中台
    3、案例——“乐小X”场景实战拆解
    4、展望——未来如何支撑“人工智能+”长期战略
    听众收益:
    1、了解五维一体智能体架构设计,获取算力调度、模型纳管等核心模块可复用方案。
    2、拆解金融场景落地路径,获取从需求到量化评估的全流程实战经验。
    3、探索智能体中台作为AI基座的发展方向,在降本增效、业务创新方面获得前瞻思路。
    个人简介: 付强,湖南大学机器人视觉感知与控制技术国家工程实验室工学博士,加拿大阿尔伯塔大学联合培养。深耕人工智能、大模型与计算机视觉领域,发表论文10余篇,授权发明专利2项,兼具扎实学术功底与工业落地能力。2021年加入长沙银行,助推获批省级金融创新中心并牵头运营,从0到1构建行内AI数字基础设施,打造“算力-模型-知识-研发-评估”五维一体的智能体中台,成功孵化故障应急、IT服务、智能巡检、智能问数、授信审批等42个大模型应用场景。项目荣获省工信厅、省网信优秀应用案例。
  • 陈泽丰
     浙江移动
    IT工程师
    演讲主题:从投诉响应到系统自愈——AIOps 投诉智能体实践
    主题简介:传统客服与运维系统割裂,导致故障响应迟缓、根因定位困难。本演讲将分享浙江移动如何利用大模型重构投诉智能体,将其打造为 AIOps 的“神经末梢”。我们将展示如何通过自然语言处理解析投诉文本,自动关联 CMDB 与运维指标,实现从“业务感知”到“系统诊断”的无缝衔接。重点介绍智能体在根因分析、故障自愈及运维知识沉淀中的实战案例,探讨如何将每一次投诉转化为系统优化的契机,真正实现从被动响应走向主动预防的智能运维新范式。
    演讲提纲:
    1、运维视角下的投诉服务体系重构
    1.1、现状与痛点
    1.2、浙江移动的破局之路
    1.3、核心理念
    2、投诉智能体建设思路:AIOps 融合架构
    2.1、投诉感知层
    2.2、知识增强与根因分析层
    2.3、自动化执行层
    3、投诉智能体实践案例
    3.1、案例一:基于投诉数据的告警压缩与故障预警
    3.2、案例二:运维知识库的自动生成与更新
    4、心得与思考
    4.1、技术挑战
    4.2、未来展望
    听众收益:
    1、了解智能体在投诉服务中的落地方法论,了解投诉智能体建设思想,获取直接可用的实施方案;
    2、共同探索投诉角度出发的运维系统与未来发展方向,在提升客户满意度、降低人力成本、保障系统可用性等方面,提供可落地的思路。
    个人简介:浙江移动运营监控部IT技术支持,熟悉IT运维和体系建设,负责公司全省IT系统业务维护保障和智能运维实践落地等工作,主导构建技术领先、敏捷高效的运维保障体系;在机器学习与大模型应用领域拥有丰富的工程经验,发表多篇SCI期刊论文,具备从理论探索到工程落地的复合型能力。
  • 小米 手机  IoT SRE 团队负责人(支持 小米手机部运维工作)付冰尧
    付冰尧
    小米 手机 IoT SRE 团队负责人(支持 小米手机部运维工作)
    演讲主题:从工具到伙伴:小米 SRE 在 AIOps 的真实探索与踩坑
    主题简介:大家好,我是付冰尧,小米手机 IoT SRE 团队的负责人,也是小米云平台AIOps 平台的主要建设者之一,在支撑手机部业务的这些年,我深切感受到传统运维模式的局限:工程师被无效告警困扰,资源规划不够精准,故障响应总是慢半拍。这些问题促使我们开始用 AI 技术改变现状。 我们选择的路径是"从工具到伙伴"的渐进式演进:从简单的自动化工具,到提供智能建议的助手,再到能够自主处理问题的伙伴。这条路不好走,我们踩过不少坑——数据质量问题、算法选择困惑、团队信任建立困难、安全边界设计等等。 今天想和大家分享的就是我们在这条路上的真实探索经历。不谈高大上的理论,只聊实际遇到的问题、尝试的解决方案、以及那些让我们熬夜的教训。希望这些经验能给大家带来实用的参考,也期待和大家交流更多的实践心得。
    演讲提纲:
    一、开场:我们为什么要走上这条路?
    1. 小米手机业务的真实挑战
    - 海量用户的运维压力
    - 复杂系统的管理难度
    2. 传统运维的三大痛点
    - 告警风暴:有效告警率<35%
    - 资源浪费:年度成本浪费约18%
    - 响应延迟:故障平均恢复15分钟
    3. 我们的选择:渐进式探索,不追求一步到位
    二、第一阶段探索:从自动化工具开始(工具阶段)
    1. 探索起点:解决最痛的问题
    - 选择了告警收敛作为切入点
    - 目标:让工程师晚上能睡好觉
    2. 第一次踩坑:数据质量是命脉
    - 问题:跨系统数据格式不一致
    - 教训:数据治理必须先行
    - 解决方案:建立标准化流程
    3.探索成果:告警减少68%,准确率提升到92%
    4.技术架构:基础数据平台 + 规则引擎
    三、第二阶段探索:加入智能分析(助手阶段)
    1. 探索方向:容器单点故障分析
    - 问题:AI 容器单点故障分析,快速定位及自愈
    - 目标:减少 OnCall 压力,缩短 MTTR 时间
    2. 第二次踩坑:算法要实用,不要"高级"
    - 问题:复杂算法在生产环境效果不佳
    - 教训:简单算法调优好>复杂算法效果差
    - 解决方案:多算法融合,渐进演进
    3.探索成果:资源利用率提升25%,成本降低18%
    4.技术架构:AI 模型引入 + 决策支持
    四、第三阶段探索:尝试自主处理(伙伴阶段)
    1. 探索方向:让 AI OnCall
    - 问题:故障恢复依赖人工,响应慢
    - 目标:常见问题自主处理
    2. 第三次踩坑:安全边界设计
    - 问题:自动化操作的风险控制
    - 教训:可回滚、可中止、可验证
    - 解决方案:建立多层安全机制
    3.探索成果:故障恢复时间缩短89%
    4.技术架构:感知层 + 决策层 + 执行层 + 学习层
    五、总结:探索路上的经验与思考
    1. 三个关键收获
    - 数据质量>算法复杂度
    - 简单实用>理论先进
    - 人机协同>AI替代
    2. 给同行的探索建议
    - 从小处着手,快速验证
    - 关注实际问题,不追概念
    - 安全第一,渐进推进
    3. 未来探索方向
    - 更智能的根因分析
    - 更精准的预测能力
    - 更安全的自主决策
    六、现场互动与交流
    听众收益:
    一、了解小米手机 IoT 业务场景下 AIOps 的真实探索路径
    - 看到从"工具"到"伙伴"的完整演进过程
    - 了解在不同阶段的技术选型与实施策略
    - 获得具体效果数据参考(68%/25%/89%)
    二、掌握 AIOps 实践中的关键避坑经验与实用方案
    - 数据治理的实际操作方法
    - 算法选型的实用原则(不迷信"高级")
    - 人机协作的设计要点(透明、可控、渐进)
    - 安全边界的设计思路与验证方法
    三、获得可直接借鉴的实践经验与行动框架
    - 三个完整案例的详细实施过程
    - 从问题识别到方案落地的完整思考框架
    - 评估 AIOps 项目价值的实用指标与方法
    - 团队技能转型与文化建设的实际经验
    个人简介:付冰尧,负责小米手机 IoT SRE 团队,拥有多年大规模互联网系统运维架构经验,深度参与信通院 SRE 行业标准制定,积极推动运维智能化转型。 作为小米 AIOps 平台核心建设者之一,带领团队从实际问题出发,在智能监控、容量规划、故障自愈等关键场景实现技术突破。实践中坚持数据驱动与工程实用性原则,主导构建了覆盖数据治理、MCP & Skills 技能设计、安全完备性检测,有效提升了运维效率与系统稳定性。 在Qcon 等技术大会多次分享小米SRE实践经验,倡导"从工具到伙伴"的渐进式智能化路径,关注 AI 技术在实际运维场景中的落地价值与安全边界。致力于推动运维工程师从重复劳动中解放,聚焦更高价值的技术创新与业务保障。
  • 合作伙伴
    钻石赞助
    铂金赞助
    金牌赞助
    媒体及社区合作
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    第28届智能体驱动的GOPS全球运维大会 · 深圳站
    活动门票
    活动筹备中
    售票推广中
    活动结束
    选择票
    门票名称
    现在 - 3月31日(¥) 原价
    数量
    普通票
    3,780 4,200
    0
    1、本次大会双日门票,可以进出任何专场。
    2、不含票。
    标准票
    4,280 4,700
    0
    1、本次大会双日门票,可以进出任何专场
    2、含17-18两日的中午自助餐
    3、餐票妥善保管,丢失不补

    退票说明:不支持退票

    优惠或邀请码
    票价
    0
    活动主办方