活动首页 > 嘉宾介绍
2023中国软件研发创新科技峰会
陈绪
数元灵科技CTO
数元灵科技CTO,负责推进国产湖仓数据智能平台的研发和落地应用。曾就职阿里巴巴,负责集团超大规模分布式模型训练平台的研发工作,支撑了阿里妈妈广告、手机淘宝推荐、蚂蚁芝麻信用分等多个核心业务线的算法模型落地。曾任汇量科技,担任平台架构师,负责全公司大数据、AI平台的架构研发工作。有着丰富而卓越的技术思想见地。
嘉宾日程:

智能湖仓支撑 Data+AI 一体化数据架构

#数据科学驱动智能应用

〇 分享简介 〇

在大模型的训练、微调等过程中,都需要大量的输入训练数据来提升模型效果。可以说训练数据集的规模和质量,是决定大模型最终推理效果的关键因素之一。同时,大模型时代,也给大数据和 AI 的架构带来一系列挑战。

传统的数仓平台,主要面向结构化数据的分析计算,以及面向 BI 场景。然而在 AI 场景下,除了结构化数据,还会有文本、图片、音视频等多种非结构化数据,通常使用数据湖存储。这两部分数据缺乏统一的管理。同时大模型的训练数据量级可能会达到 TB 级,对数据的读取性能也有较高的要求。这些问题都对传统数据架构带来了挑战。

本次分享将会针对以上挑战,分析解读智能湖仓架构为什么能够成为支撑 Data+AI 一体化的数据架构。并构建开源智能湖仓框架过程中的设计思考,架构设计以及落地应用的案例。

〇 分享收益 〇

目标:

1)解析智能湖仓一体架构的内涵,分析当前大模型等 AI 应用对数据组织、管理能力的新需求和架构上的挑战;

2)剖析智能湖仓框架如何能够更好地支撑 Data+AI 一体化架构,成为大模型的数据底座;

3)讲解我们在构建开源智能湖仓框架中的设计思考,优化经验以及应用案例。

成功要点:

1)智能湖仓需要提供开放架构和统一的接口,能够为流、批等大数据计算引擎,以及 AI 计算框架无缝对接,实现一份数据,多种计算模式;

2)智能湖仓需要统一管理结构化和非结构化数据,最大限度发挥数据湖的灵活性和数据仓库的规范性,成为统一的数据底座;

3)智能湖仓针对大规模 AI 模型对训练数据的访问要求,做出相应的性能优化,满足大型多模态模型训对 IO 性能的要求。

启示:

当前数据架构的发展趋势,决定智能湖仓在Data+AI一体化方向的重要性,开源智能湖仓框架在 AI 场景的针对性设计,功能特性和优化,以及在大模型等AI方向的应用将会给企业带来巨大的价值。

〇 分享亮点 〇

1. 当前Data+AI对数据架构体系的挑战和分析;

2. 智能湖仓架构介绍;

3. 介绍开源智能湖仓 LakeSoul 的设计理念以及对Data+AI一体化的支持;

介绍开源智能湖仓LakeSoul在Data、AI 场景下的应用。

09 月 24 日 16:45 - 17:45