阿里国际AI Business多模态数据负责人,负责多模态大模型数据研发、数据标注、数据合成以及评估等工作。
阿里国际多模态大模型数据质量评估与合成技术探索
在大模型时代,数据是驱动大模型的能源。互联网公开数据作为核心训练资源,正面临随模型规模扩大而趋于枯竭的困境。多模态数据处理需投入高昂的计算成本及人工标注资源,进一步制约模型迭代效率。通过利用现有大模型的生成能力,可在有限算力下自动化合成高质量多模态训练数据,构建"数据生产-模型进化"的协同优化闭环,这将成为突破当前数据瓶颈、实现持续创新的关键路径。
我们从复杂性、质量、多样性等多个维度出发,定义并构建一套评估多模态数据质量的评估方法,在此基础上探索系统化的方法来合成复杂、多样性的多模态大模型训练数据,从而形成从开源数据采集->数据质量评估->数据合成->模型训练与评估的闭环链路,能够不断迭代创建更多高质量多模态数据以加快模型迭代速度。
演讲提纲:
1. 多模态大模型数据现状
2. 多模态大模型数据质量优化
3. 多模态大模型数据合成探索
4. 数据-模型联动机制
5. 未来探索方向
听众收益:
- 了解从多模态数据质量评估、数据合成到模型训练与评测的全流程数据生产链路
- 了解多模态大模型数据合成的系统化方法与实战
