湖仓一体落地实践论坛
议题1:百度图灵湖仓查询优化
议题2:腾讯游戏数据分析的湖仓一体化实践
议题3:纵腾湖仓全链路落地实践
议题4:JuiceFS 上的湖仓一体探索与实践
个人介绍:2015年硕士毕业北京邮电大学,同年加入百度,先后负责百度商业广告体系产品报表、商业分析体系、客户报表、图灵数据平台等工作。图灵实时数据分析平台将百TB大数据查询场景平均耗时降至秒级,助力百度商业数据分析效率提升30余倍。高查询效率,高基础数据时效性让图灵平台成为商业业务数据分析的首选,为业务高速迭代做出巨大贡献。图灵平台先后丰富了数据集成、数据例行加工能周边能力,凭借强大的功能及优越性能,图灵平台从服务商业业务场景逐渐拓展至搜索、feed、百度APP等商业外多个业务线,成长为百度MEG体系最受欢迎的数据分析平台。
演讲题目:百度图灵湖仓查询优化
演讲提纲:
百度商业体系广告是一个强数据驱动的业务系统,对快速的数据分析查询的诉求十分强烈。同时,一个广告数据的应用场景极其多样,有面向数据分析师使用的长时间窗内多维的业务数据指标分析,有面向RD进行系统诊断、策略调优的Trace类分析,有面向QA&RD使用的常态监控数据查询需求。多样的场景、复杂的日志构成、用户对查询效率的更高诉求,在过去几年中催动着图灵平台不断进化。过去几年,图灵数据分析平台在数据建模优化、查询多引擎使用,智能调优等多个方面完成诸多卓有成效的工作。
主要内容包括:
1. 百度商业数据分析业务介绍
2. 图灵的数据分析挑战
3. 百度商业湖仓数据建模介绍(扁平分层与面向使用频次优化的加速数据层)
4. 图灵数据分析的架构选择
5. 图灵智能查询分发
6. 图灵智能调优(APM+optimizer)
听众收益:
1. 如果建设一个高效的湖仓数据模型?
2. 什么是一个好的数据分析引擎?
3. 如何通过智能调参,实现提速30%
个人介绍:2015年硕士毕业北京邮电大学,同年加入百度,先后负责百度商业广告体系产品报表、商业分析体系、客户报表、图灵数据平台等工作。图灵实时数据分析平台将百TB大数据查询场景平均耗时降至秒级,助力百度商业数据分析效率提升30余倍。高查询效率,高基础数据时效性让图灵平台成为商业业务数据分析的首选,为业务高速迭代做出巨大贡献。图灵平台先后丰富了数据集成、数据例行加工能周边能力,凭借强大的功能及优越性能,图灵平台从服务商业业务场景逐渐拓展至搜索、feed、百度APP等商业外多个业务线,成长为百度MEG体系最受欢迎的数据分析平台。
演讲题目:百度图灵湖仓查询优化
演讲提纲:
百度商业体系广告是一个强数据驱动的业务系统,对快速的数据分析查询的诉求十分强烈。同时,一个广告数据的应用场景极其多样,有面向数据分析师使用的长时间窗内多维的业务数据指标分析,有面向RD进行系统诊断、策略调优的Trace类分析,有面向QA&RD使用的常态监控数据查询需求。多样的场景、复杂的日志构成、用户对查询效率的更高诉求,在过去几年中催动着图灵平台不断进化。过去几年,图灵数据分析平台在数据建模优化、查询多引擎使用,智能调优等多个方面完成诸多卓有成效的工作。
主要内容包括:
1. 百度商业数据分析业务介绍
2. 图灵的数据分析挑战
3. 百度商业湖仓数据建模介绍(扁平分层与面向使用频次优化的加速数据层)
4. 图灵数据分析的架构选择
5. 图灵智能查询分发
6. 图灵智能调优(APM+optimizer)
听众收益:
1. 如果建设一个高效的湖仓数据模型?
2. 什么是一个好的数据分析引擎?
3. 如何通过智能调参,实现提速30%
个人介绍:10多年大数据相关经验。主要从事大数据架构开发调优,目前从事数据湖落地事宜。
演讲题目:纵腾湖仓全链路落地实践
演讲提纲:
1. 总体架构
2. 入湖方案选型
3. 实时入湖优化
4. 数据湖上的查询
听众收益:
1. 如何选择合适入湖方案
2. 如何优化实时入湖
3. 数据湖上的查询方案
个人介绍:我是 Juicedata 合伙人苏锐,作为 1 号成员参与创建云原生分布式文件系统 JuiceFS,先通过全球公有云上的 SaaS 产品获得国内外几十家商业客户。之后于 2021 年 1 月 JuiceFS 开源,经过两年的社区发展,在 GitHub 上获得 8000 多星,每天有数千活跃集群,是这两年全球发展最快的文件存储项目之一。苏锐在加入 Juicedata 前,历任 O2O 汽车服务品牌功夫洗车创始人 & CEO,豆瓣电影 PM & Tech Lead,公益组织多背一公斤和傲游浏览器的创始团队成员。
演讲题目:JuiceFS 上的湖仓一体探索与实践
演讲提纲:数据仓库、数据湖、湖仓一体,新的概念层出不穷,它们之间有什么关系?是渐进式迭代还是颠覆式创新?在 AI 浪潮下又有何发展?本次演讲为各位介绍 JuiceFS 在大数据生态和湖仓一体架构下的探索和用户案例实践。
具体内容包括:
1. 数据湖和湖仓一体中不同存储系统的优劣势
2. 为什么要做 JuiceFS,以及架构设计理念
3. JuiceFS 在湖仓一体架构中的作用
4. 用户案例分享
5. AI 对数据湖、湖仓一体的影响
听众收益:
1. 比较数据湖存储方案,了解优劣势
2. 从要解决的问题出发,了解 JuiceFS 的设计理念与过程
3. 了解用户在 JuiceFS 上的湖仓一体实践