移动端 GUI 执行的 Agent Harness 探索
业务背景:用户从对话问答转向任务自动执行的需求转变,以及 Agentic AI 能力的不断成熟,催生移动设备 GUI Agent 的应用落地。
方案选型:多模态 Agent - 训练、框架
落地挑战:GUI Agent 在移动设备的复杂交互逻辑、回退机制以及弹窗广告的动态性
解决思路:模型在线强化学习训练、多智能体框架、端云协同状态感知、hybrid 状态知识库
解决成效:业务落地效果
演讲提纲:
随着用户需求从信息获取转向任务执行,Agent 不再只是对话问答,而是需要在手机上完成明确的任务 - 点单、打车、预约、查询等跨 App、跨页面的复杂操作,为用户解决高频重复和低频复杂的执行任务。因此,方案从传统文本问答演化为多模态 Agent:一方面通过模型训练提升对移动 GUI、页面状态和操作意图的理解能力,另一方面通过系统框架支撑任务规划、动作执行和状态管理。
在真实落地中,移动 GUI 的复杂交互逻辑、回退路径、弹窗广告和动态页面变化,使得单一模型或固定脚本难以稳定运行。为此,系统进一步演化为多智能体协同架构,并结合模型在线强化、端云协同感知和知识库沉淀,提升异常处理、任务恢复和长期泛化能力。从行业榜单能力提升走向业务场景落地,形成面向移动设备的通用自动执行能力。
随着执行能力的不断演进,GUI Agent 的下一步是在执行过程中更了解用户、提供更贴合实际需求的执行、主动为用户减少交互困难,以及更流畅、更智能的数字助理。
听众收益:
1. 了解当前手机厂商 GUI Agent 的现状及挑战
2. 提升如何通过训练和 Harness Engineering 提升 Agent 业务上线能力
研究方向涵盖 GUI Agent、多智能体框架与端云协同计算。近年在 NeurIPS,AAAI,WWW,CIKM,IEEE TC / TIFS 等会议与期刊发表多篇论文,参与 OPPO GUI 智能体系统研发与 Agent 业务应用上线。