返回上一页 > 嘉宾介绍
2025中国软件研发创新科技峰会
谢春宇
360人工智能研究院图像理解负责人

360人工智能研究院图像理解负责人,带领团队在图文跨模态学习、开放世界目标检测、多模态大模型等领域展开算法研究和落地工作,在计算机视觉、多模态学习等AI领域有多年研发实践经验,第一作者在ICML、ICCV、ICLR、AAAI、IJCAI等人工智能顶会发表7篇文章,在AI领域发表13篇国内外专利,主导研发项目在360集团的商业化、互联网信息分发、AIoT等多个业务场景取得重要突破。

嘉宾日程:

细粒度多模态理解能力探索

#新一代技术范式:多模态大模型及应用

〇 分享简介 〇

随着大模型技术的突破,智能交互系统在技术层面实现了显著革新,相关应用领域进入了爆发式增长阶段。以DeepSeek、通义千问、豆包等为代表的前沿实践,不仅推动了多模态模型在语义解析和跨模态对齐方面的能力跃升,更通过多模态感知与生成技术的融合,为扩展大模型的应用边界提供了新机遇。

多模态大模型对互联网领域的大量多模态数据(如图像和文本),进行处理,衍生了大规模图像、文本对齐的需求。传统跨模态CLIP模型虽在全局语义对齐上表现优异,却难以捕捉图像与文本中局部细节的微妙差异(如纹理、姿态、属性关联),这限制了其在互联网图文检索、开放世界目标检测、细粒度理解等领域中的广泛应用。

本次分享将探讨细粒度图文对齐方法,包括模型结构设计、数据构建、特征工程等,并展示其实验结果与可视化分析,验证其在图像文本检索、开放世界目标检测等任务中的优越性能。为AI从业者更好的探索深层次的多模态理解。

〇 分享收益 〇

目标:

1、了解多模态理解的技术现状

2、学习细粒度图文对齐的方法解析

3、结合行业场景案例分析,学习评估和改进现有的多模态模型,提高在下游任务中的性能。

成功要点:

利用多模态大模型反哺跨模态图文对齐能力,通过多阶段多层次数据训练提升模型细粒度多模态能力

启示:

细粒度多模态理解是互联网搜索、智能监控场景下的一个未来趋势,通过与最新的LMM技术结合衍生的跨模态基座模型是实现这一目标的核心方法。

〇 分享亮点 〇

1、细粒度图文对齐的模型方法

2、基于基于大模型的长描述样本生成:从“短文本”到“细粒度语义”

3、高质量区域对齐与难细粒度负样本工程:从“简单对比”到“语义区分”

4、实验成果验证与多维可视化洞察

5、QA

09 月 13 日 13:30 - 14:20