AI4Data 在大模型数据生产中的应用与实践
大模型的兴起掀起了人工智能的热潮,Data4AI 的应用场景也日益受到关注。在这个背景下,我们设计和搭建了一套 Data + AI 的系统架构,用 AI4Data 的方式来完成 Data4AI 的目标。
我们从数据的采集、接入、分类、标注、合成、检索、训练、存储等各个环节进行深入分析,结合数仓组织数据的思想,设计和搭建了一套数据不间断生产的基础设施。在支持数据快速生产和迭代的同时,满足各个团队任意时间段的取数用数需求。
演讲提纲:
1. 数据生产的发展历程
2. 数据生产方式,从 Data4AI 走向 AI4Data
3. 数据生产链路中的主要工具
4. 数据组织方式提升数据交付效率
5. 未来探索方向
听众收益:
- 了解数据生产的范式,用 AI4Data,来完成 Data4AI
- 了解大模型训练数据的生产链路和系统架构
- 了解高效的数据组织方式,能够提升端到端生产数据的效率
负责大模型预训练数据生产,设计和落地 Data + AI 系统架构。