美团多模态预训练的探索和实践
〇 分享简介 〇
近年来,随着预训练模型在NLP领域的巨大成功,多模态预训练受到业界广泛关注。美团业务场景中除文本数据外,还存在大量图片、视频、语音等多模态内容供给。多模态预训练技术在搜索、推荐和内容理解等场景中均有着巨大的应用价值。多模态预训练技术主要关注图文模态间的特征融合与交互能力,而在具体的业务迭代中,模型的预训练效率和下游使用效率同样是关键的一环。
本次分享将具体分享我们在多模态预训练研究与业务应用上的进展,包括多模态交互方式、预训练数据处理逻辑和模型应用效率的优化,以及在美团搜索、美团电商和大众点评信息流等业务场景中的应用效果。
〇 分享收益 〇
收益
1. 工业场景下多模态预训练技术和落地展望
2. 多模态预训练交互模式改进和下游业务应用效果优化方案
3. 多模态模型预训练效率优化手段
成功(或教训)要点
不同于单模型预训练,好的多模态模型离不开完善的基础设施、灵活的模型结构、高效的训练方法以及针对不同业务场景的合理适配。
启示
提升多模态预训练模型的训练效率和应用效果的可行性方案
〇 分享亮点 〇
1. 业务背景:美团搜索、美团电商和大众点评等应用中的多模态场景
2. 多模态预训练主流技术方案介绍与分析
3. 美团多模态预训练方案
4. 美团多模态方案在主流评测和业务场景中的效果
5. 预训练阶段数据处理逻辑优化及实际效果
6. 总结
7. QA