活动首页 >日程安排

打造新一代批流融合的湖仓系统

时间: 10 月 24 日 09:00 - 12:00
内容介绍:

〇 分享简介 〇

湖仓系统是当前大数据的热点,它结合了数据湖和数仓两者的优势,既有数据湖的通用性,又不失数仓的高性能。本次分享将会以开源大数据组件为基础,分享如何使用这些基础的计算、存储、表格式、缓存组件构建一个高效的批流融合的湖仓系统,以及如何优化和落地,满足海量业务数据的需求。


〇 分享收益 〇

目标:

a.了解到一系列开源组件的架构和实现,以及如何使用这些开源组件搭建一套生产环境可用的湖仓系统,

b.如何优化数仓来满足海量数据的需求。

 

成功要点

a.深入了解并上手开源湖仓系统组件

b.能够利用这些组件搭建批流一体的湖仓系统

 

启示:

能够了解湖仓系统的最佳实践,助力生产环境落地


〇 分享亮点 〇

1. Iceberg数据湖格式的原理,架构

2. Alluxio数据湖缓存的原理,架构

3. Presto查询引擎的原理,架构

4. 利用Flink、Iceberg、Alluxio、Presto搭建批流融合的湖仓系统。

5. 调优和最佳实践

6. QA


日程嘉宾
2021中国软件研发管理行业技术峰会
邵赛赛
Datastrato 联合创始人 及CTO

Datastrato 联合创始人 及CTO,Apache member,Apache Spark PMC成员,Apache Gravitino创始人,专注于开源大数据基础软件的研发。曾负责腾讯大数据实时+离线+湖仓相关的产品研发,主导Iceberg在腾讯的落地,过往就职于腾讯、Hortonworks、Intel,在大数据、开源技术领域有着独到的见解与经历。