快手技术专家,负责快手Flink SQL方向工作,多年大数据实时和离线计算经验,擅长大数据场景的架构和方案设计。快手多年重大活动实时计算场景SQL方案制定者和稳定性保障负责人,为快手实时看板的指标计算定制专有SQL语法和实现,并深度优化性能,助力业务达成目标。曾任京东大数据离线引擎负责人,主导京东大数据Adhoc生态的建设。熟悉Hadoop生态,是多个Apache项目的贡献者,活跃在Flink技术社区。
快手流批一体架构探索和演进
〇 分享简介 〇
随着数据量的快速增长和实时性需求的不断提高,传统的批处理和流处理模式已难以满足企业复杂多变的数据处理需求,流批一体已成为大数据处理的前沿趋势。通过整合实时流处理和批量数据处理,实现了数据的高效、灵活处理;此外,流批一体的发展还推动了数据集成、数据存储和处理逻辑的统一,进一步提升了数据的一致性和准确性。
从现状来看,流批一体化技术已在多个业务场景中成功验证,并逐渐走向落地。但在实际应用中,特别是在大数据量和复杂业务场景下,流批一体的实现仍面临一定挑战,比如如何在流处理和批处理之间确保数据的一致性和可靠性,如何减少和降低因流批一体的架构而产生的运维成本和运维难度,另外流批一体系统需要平衡实时性和吞吐量,同时保证低延迟和高性能,这对系统设计和优化也提出了更高要求。
本次分享将逐条分析流批一体的现状,结合快手在流批一体上探索的经验和成果,帮助企业结合自身业务场景,思考适合自身业务特色的流批一体路线。
〇 分享收益 〇
目标:
帮助行业公司选择适合自身业务发展的流批一体路线,有效利用数据湖技术达成企业成本优化目标。
成功要点:
回归技术服务业务发展的初衷,结合自身业务的特点和痛点,充分利用新技术、新方案、新架构的先进性解决业务关切的核心问题,助力达成业务目标,避免陷入技术的盲目自嗨。
启示:
流批一体架构的出现与发展,整合了实时流处理与批量数据处理,提高了企业数据处理效率,降低了系统复杂度,支持企业快速响应业务需求,实现数据价值最大价值挖掘与利用。
〇 分享亮点 〇
1、当前业界流批一体的现状
1) 单一引擎短时间无法完全解决流和批场景上的所有问题
2) 充分发挥新技术优势,结合引擎特性可以获得实际的业务收益
2、快手流批一体探索经验和实际收益
1)介绍快手流批一体探索发展的三个阶段
2)流计算和数据湖的结合助力核心离线公共模型提效2小时
3)简化离线生产链路复杂度,如何在不同场景选择合适的湖仓方案
3、未来湖仓方案规划
1)优化Flink hudi 实时化架构,使其更好支持业务场景
2)完善湖仓实时化的能力,比如实时大宽表拼接
3)湖仓版本升级,利用社区的新特性
4)探索更多业务场景,比如算法领域
4、QA
