京东集团副总裁、京东探索研究院图像与多模态实验室主任,带领研究团队研发视觉和多模态基础模型。此前,他曾任阶跃星辰Technical Fellow和微软亚洲研究院自然语言计算团队资深首席研究员和研究经理。段博士的研究兴趣包括自然语言处理、代码智能、多模态基础模型和AI智能体等。他在顶级会议和期刊上发表了超过200篇研究论文,累积引用超过28,000次(h-index 76),并拥有20多项专利。
段博士是中国科学技术大学、西安交通大学和天津大学的兼职教授及博士生导师。2019年,因在自然语言处理领域的贡献被评为CCF-NLPCC杰出青年科学家,2023年,他因在人工智能基础模型方面的贡献被列为DeepTech中国智能计算创新人物之一。
多模态基础模型的进展与展望
〇 分享简介 〇
多模态基础模型能够通过文字、声音和视觉了解用户的意图、情绪和状态,并基于强大的多模态推理、规划和生成能力,为用户提供生动准确的解决方案或内容推荐。同时,多模态基础模型能够从海量视频和虚拟物理引擎中学习现实世界的物理特性和规律,并根据文字指令或操作预测当前视觉状态下未来的情况,生成符合物理规律的可视化视频输出。当前的多模态基础模型将颠覆搜索、教育、娱乐、推荐等重要应用场景,并推动附身、具身智能的发展。
最新多模态闭源模型(GPT-4o和Gemini-2.5-Pro)已初步具备图文理解、推理、生成和编辑能力,但尚未在多模表征、模型架构和学习范式上达成统一,多模态理解和生成尚未实现真正意义的互促和融合。主流通用视频生成模型基于扩散模型,可一次性生成时长为5-10秒视频,但推理效率低,物理规律遵循能力差,且不具备通用视觉理解和推理能力。
本次分享系统回顾多模态基础模型的发展,包括视觉表征模型、多模态理解模型、多模态生成模型和多模态理解生成一体化模型。将为行业突出每种模型的特点及其面临的挑战,以及探讨多模态基础模型的未来发展方向,特别是聚焦两个关键领域:视频世界模型和多模态理解生成一体化模型。帮助与会者在此方向建立、选择更正确的路线。
〇 分享收益 〇
目标:
1、了解多模态领域的发展脉络和最新动态
2、对视频生成模型和多模态理解生成模型的优缺点有系统分析
3、对未来多模态基础模型的应用场景有一定的展望。
4、了解多模态基础模型的最新进展、挑战和未来发展的方向
成功要点:
多模表征统一+模型架构统一+2D-3D统一,决定了促进AGI和具身智能的发展。
启示:
模型的跨模态理解和生成能力已实现了质的飞跃,未来,多模态模型行业将继续朝着性能提升、应用拓展和普惠智能的方向发展,为各行业的智能化升级和人类社会的进步做出重要贡献。
〇 分享亮点 〇
1、多模态基础模型的进展
1)大语言模型为多模态的发展奠定基础
2)视觉表征监督从视觉信号到自然语言
3)多模态理解模型使得AI能够看图说话
4)多模态生成从自回归模型到扩散模型
5)多模态模型向理解生成统一方向前进
2、多模态基础模型的展望
1)趋势:从视觉生成模型到视频世界模型演变
2)趋势:从多模态理解向多模态理解生成一体化演变
