Datastrato 联合创始人 及CTO,Apache member,Apache Spark PMC成员,Apache Gravitino创始人,专注于开源大数据基础软件的研发。曾负责腾讯大数据实时+离线+湖仓相关的产品研发,主导Iceberg在腾讯的落地,过往就职于腾讯、Hortonworks、Intel,在大数据、开源技术领域有着独到的见解与经历。
AGI时代的统一元数据基座
〇 分享简介 〇
在AGI时代,构建一个高质量的LLM应用,数据变得非常重要,无论是数据的覆盖范围,还是数据的准确性都决定了LLM应用的质量。更为重要的是LLM使得非结构化数据的作用变得无比重要。获取到并管理海量的结构化尤其是非结构化数据,全链路支持LLM的训练、调优、推理所需要的数据,成为每个企业亟待解决的问题。
通过构建统一的元数据底座,统一管理异构、跨域、跨云的多种类型数据,并打通对数据、AI引擎的对接,使得用户可以一站式获取数据,大大降低了用户数据获取的复杂度,依托更为丰富、准确的数据能够打造更好的LLM应用。
本次分享企业在AGI时代所面临的最直接的数据挑战,涉及高效地管理、获取全域数据、统一地进行数据治理和权限控制;以及平滑集成数据和AI框架构建统一的data agent。为企业带来这些创新技术在一线的落地情况和最佳实践。
〇 分享收益 〇
目标:
1、获得统一管理、获取AI数据,并构建高效的data agent有更多的实践经验。
2、了解统一的结构化和非结构化数据模型管理异构、跨域、跨云的数据,统一的权限模型管理云上云下数据,高效集成Langchain、LlamaIndex构建统一的data agent。
成功要点:
高效、统一、企业级的统一数据管理一直是各企业构建数据平台所追求的目标,在AI时代,传统的数据管理方式和AI的新数据需求存在着脱节,打破现有的桎梏,面向AI构建新型的元数据基座为企业在面向AGI高效、统一地管理数据提供更好的解决方案。
启示:
统一的元数据管理架构为企业打造data for AI平台提供新的架构和能力
〇 分享亮点 〇
1、AGI时代传统数据管理和治理方式所存在的问题。
2、现有的技术在解决这些问题上所面临的挑战。
3、Apache Gravitino是如何解决AI时代的统一数据管理。
1)如何实现统一的数据模型,统一结构化和非结构化数据。
2)如何实现统一的异构、跨域、跨云数据视图。
3)如何构建统一的权限模型统一管理云上云下数据。
4)如何使用Gravitino构建一个高效的data agent。
4、如何基于 Gravitino 的构建数据管理平台
1)为什么需要构建统一的数据管理平台
2)为什么选择Gravitino作为统一的元数据基座
3)小米在构建过程中所遇到的挑战,以及如何解决这些问题的。
5、总结
