大模型时代下的视觉大模型:落地实践与未来探索
〇 分享简介 〇
AIGC特别是Stable Diffusion、chatGPT/GPT4的推出,让大模型开始走出实验室,真正进入生产环境下的普及阶段。与语言大模型相比,视觉大模型更侧重感知能力,在研发和应用中需要面对更为广泛和复杂的场景挑战:从传统的视觉单模态走向图文多模态,实现开放世界的通用目标检测,实现视觉大模型与文本大模型的联动互补,以上都是当前视觉大模型亟待解决的问题。
本次分享将从从工业界的视角,梳理360人工智能研究院在视觉大模型方向的探索和心得;视觉大模型在搜索、短视频、安防场景落地的成功案例;同时也将对近期火热的多模态大模型研究进行总结和梳理,一并引出360人工智能研究院在MLLM方向上的研发思考。
〇 分享收益 〇
目标
1.了解视觉大模型方向的研究进展;
2.了解视觉大模型在工业界落地的考量因素及成功案例;
3.了解多模态MLLM未来的工作方向 。
成功要点
大模型的核心不仅是模型参数量大,更为关键的能够充分利用以往无法利用的“大”数据。
启示
视觉大模型的未来必然走向多模态融合和跨模态对齐,这一方向也更为符合现实业务对于AI能力的实际需求。
〇 分享亮点 〇
1. 视觉“大”模型的大指的是什么?
2. 视觉大模型案例1:跨模态
3. 视觉大模型案例2:开放世界目标检测
4. 视觉大模型与文本大模型的融合:MLLM
5.360研究院在MLLM方向的研究成果和未来方向