活动首页 > 嘉宾介绍
2023中国软件研发创新科技峰会
王成
小红书实时数仓研发负责人
小红书实时数仓研发负责人,硕士毕业于清华大学,有10年的大数据引擎研发经验;从0-1负责了小红书的云原生实时数仓的架构和落地,推动并主导湖仓一体建设,有丰富的实时数仓实践经验和架构能力;
嘉宾日程:

云原生实时数仓建设与实践

#云原生大数据

〇 分享简介 〇

传统的存算不分离架构不能满足扩展性的需求,因此需要从云原生出发,对实时数仓进行架构的升级改造,提升系统的可靠性和扩展性。立足于云原生实时数仓,企业可进一步推动了湖仓一体建设,显著降低了数据准备成本,扩展了使用场景。

OLAP数据库帮助企业快速、灵活地挖掘海量数据的价值,在业务决策中起到了关键支撑作用。ClickHouse因其极致的分析性能在实时数仓领域得到广泛的应用,小红书从 2019 广泛应用ClickHouse,支撑实时分析场景的落地。伴随业务的快速增长,ClickHouse存算不分离的架构,在运维管理、成本控制等方面的劣势进一步显现,特此,企业构建云原生实时数仓的显著降低了运维成本,极致的可扩展性能够轻松满足业务的需求增长,并为业务方提供了更好的数据分析体验。湖仓一体的建设也为实时数仓引入了更开放的生态,极大扩展实时数仓的使用场景,显著降低数据成本。

本次分享云原生实时数仓从0到1的建设过程,包含架构原理、落地实践,以及在提效、降本方面的典型案例;同时,深度讲授在湖仓一体方向的探索和思考。

〇 分享收益 〇

目标:

1 从0到1完成实时数仓的云原生改造,通过云原生架构解决海量数据下实时数仓相关业务痛点

2 小红书在湖仓一体方向上的探索和思考,对湖仓一体的改造落地具有借鉴意义

成功要点:

存算分离架构是云原生改造的基础,存储可以采用更低成本的共享存储,计算和存储独立扩展,降低整体的成本;计算节点无状态,拥有弹性扩展的能力。

启示:

 实时数仓数据质量高,具有极致的分析性能,数据湖的核心优势则在于开放的生态、支持存储各种类型的数据,湖仓的结合能够解决数据量特别大且多元化的场景,降低架构的复杂度,提高效率

〇 分享亮点 〇

1 背景

  1)小红书实时数仓发展历史

  2)实时数仓发展中遇到的问题

2 云原生实时数仓建设

1)云原生存算分离分层架构

2)基于对象存储的查询性能优化

3)容器化部署和弹性扩展实践

4)针对海量数据实时分析场景的优化

3 业务落地

4 湖仓一体建设

5 未来规划

09 月 23 日 15:20 - 16:30