2025中国软件研发创新科技峰会

返回上一页 > 嘉宾介绍

谢春宇

360人工智能研究院图像理解负责人

360人工智能研究院图像理解负责人，带领团队在图文跨模态学习、开放世界目标检测、多模态大模型等领域展开算法研究和落地工作，在计算机视觉、多模态学习等AI领域有多年研发实践经验，第一作者在ICML、ICCV、ICLR、AAAI、IJCAI等人工智能顶会发表7篇文章，在AI领域发表13篇国内外专利，主导研发项目在360集团的商业化、互联网信息分发、AIoT等多个业务场景取得重要突破。

嘉宾日程：

细粒度多模态理解能力探索

#新一代技术范式：多模态大模型及应用

〇分享简介〇

随着大模型技术的突破，智能交互系统在技术层面实现了显著革新，相关应用领域进入了爆发式增长阶段。以DeepSeek、通义千问、豆包等为代表的前沿实践，不仅推动了多模态模型在语义解析和跨模态对齐方面的能力跃升，更通过多模态感知与生成技术的融合，为扩展大模型的应用边界提供了新机遇。

多模态大模型对互联网领域的大量多模态数据（如图像和文本），进行处理，衍生了大规模图像、文本对齐的需求。传统跨模态CLIP模型虽在全局语义对齐上表现优异，却难以捕捉图像与文本中局部细节的微妙差异（如纹理、姿态、属性关联），这限制了其在互联网图文检索、开放世界目标检测、细粒度理解等领域中的广泛应用。

本次分享将探讨细粒度图文对齐方法，包括模型结构设计、数据构建、特征工程等，并展示其实验结果与可视化分析，验证其在图像文本检索、开放世界目标检测等任务中的优越性能。为AI从业者更好的探索深层次的多模态理解。

〇分享收益〇

目标：

1、了解多模态理解的技术现状

2、学习细粒度图文对齐的方法解析

3、结合行业场景案例分析，学习评估和改进现有的多模态模型，提高在下游任务中的性能。

成功要点：

利用多模态大模型反哺跨模态图文对齐能力，通过多阶段多层次数据训练提升模型细粒度多模态能力

启示：

细粒度多模态理解是互联网搜索、智能监控场景下的一个未来趋势，通过与最新的LMM技术结合衍生的跨模态基座模型是实现这一目标的核心方法。

〇分享亮点〇

1、细粒度图文对齐的模型方法

2、基于基于大模型的长描述样本生成：从“短文本”到“细粒度语义”

3、高质量区域对齐与难细粒度负样本工程：从“简单对比”到“语义区分”

4、实验成果验证与多维可视化洞察

5、QA

09 月 13 日 13:30 - 14:20