Datastrato 联合创始人 及CTO,Apache member,Apache Spark PMC成员,Apache Gravitino创始人,专注于开源大数据基础软件的研发。曾负责腾讯大数据实时+离线+湖仓相关的产品研发,主导Iceberg在腾讯的落地,过往就职于腾讯、Hortonworks、Intel,在大数据、开源技术领域有着独到的见解与经历。
打造新一代批流融合的湖仓系统
〇 分享简介 〇
湖仓系统是当前大数据的热点,它结合了数据湖和数仓两者的优势,既有数据湖的通用性,又不失数仓的高性能。本次分享将会以开源大数据组件为基础,分享如何使用这些基础的计算、存储、表格式、缓存组件构建一个高效的批流融合的湖仓系统,以及如何优化和落地,满足海量业务数据的需求。
〇 分享收益 〇
目标:
a.了解到一系列开源组件的架构和实现,以及如何使用这些开源组件搭建一套生产环境可用的湖仓系统,
b.如何优化数仓来满足海量数据的需求。
成功要点
a.深入了解并上手开源湖仓系统组件
b.能够利用这些组件搭建批流一体的湖仓系统
启示:
能够了解湖仓系统的最佳实践,助力生产环境落地
〇 分享亮点 〇
1. Iceberg数据湖格式的原理,架构
2. Alluxio数据湖缓存的原理,架构
3. Presto查询引擎的原理,架构
4. 利用Flink、Iceberg、Alluxio、Presto搭建批流融合的湖仓系统。
5. 调优和最佳实践
6. QA
