中兴通讯CV大模型算法负责人、高级研究员,博士毕业于上海交通大学,通过“蓝剑计划”加入中兴通讯中心研究院,在IEEE TMM、IEEE TMI、MICCAI、ACM MM等国际顶级期刊和会议上发表多篇学术论文。研究兴趣包括多模态大模型、Agentic AI、AI Infra、智能医疗等。目前主要负责中兴通讯CV大模型的算法与训推框架的研发工作,也多次通过AI Infra优化赋能中兴通讯Nebulacoder大模型的训练提效。
面向视频理解的Agentic系统与Infra技术实践
〇 分享简介 〇
视频理解作为当前多模态大模型应用的关键场景之一,在安防监控、体育赛事分析、教育评估及智能交通等领域具有重要的应用价值。业界当前主要聚焦于时空特征高效建模、动态冗余压缩、多模态CoT推理等核心技术方向。随着AI Agent的快速发展,Training-free方案与视频Agent的创新研究日益受到广泛关注。
当前,超长视频输入、多模态RAG融合与Agentic AI新范式带来的挑战,对视频理解技术的系统级优化以及多模态Infra在计算效率、资源优化等方面提出了更高要求。中兴通讯针对视频理解模型和智能体、配套Infra等技术领域持续深耕,通过系统性创新实现了从全栈技术突破到多场景落地的全链条最佳实践。其中,中兴通讯的技术实践主要包括下列三个要点:
(1)自研多模态大模型训练框架,支持多模态序列并行、样本packing等,从而推动模型的长视频理解能力提升;
(2)自研NebulaVideo大模型,支持视频时空定位等困难任务,可从小时级视频中精确定位事件与主体目标;
(3)设计与自研Agentic Video框架,结合开源推理大模型能力和自研的多模态RAG数据库与标准多模态Agent,免训练提升视频理解的精度和效率。
本次分享将探讨视频理解场景下,多模态大模型和相关智能体技术的算法与Infra的发展历史、技术演进趋势与中兴通讯的研发优化和应用落地的实践。
〇 分享收益 〇
目标:
1、梳理视频理解任务在多模态大模型发展过程中的关键技术价值。
1、探讨过去视频理解的技术挑战与关键突破,并指出未来可能的研究趋势。
成功要点:
在多模态训推Infra领域不断优化下,多模态大模型SFT、强化学习和Agentic AI等算法方向持续的创新,才得以发展出一套成熟的面向视频理解的多模态算法与应用框架。
启示:
推动视频理解能力提升,要从数据构建与结构化、模型架构与训练推理范式演进、训推Infra加速和应用场景赋能等多个方面协同创新。
〇 分享亮点 〇
1、视频理解任务的核心价值与发展历程
2、多模态大模型处理视频的范式发展与对比
3、中兴在视频理解算法及Infra上的技术实践
4、中兴在视频理解场景的行业应用实践
5、视频理解技术趋势与展望
6、QA
