腾讯 BiFang——湖流一体技术原理和实践
业务背景:随着数据量的增长和实时分析需求的增加,流计算与数据湖的结合成为趋势。BiFang 作为湖流一体存储引擎,旨在实现流批数据处理入口的统一,支持全增量数据查询和端到端数据实时可见。
方案选型:Apache Pulsar 和 Apache Iceberg 在腾讯内部都已经大规模落地,经历了超大规模业务验证,适合作为湖流一体融合的基座
落地挑战:融合消息队列和数据湖架构带来较大改造挑战,兼顾全流程事务和无延迟的数据湖查询
收益成效:
- 突破流计算与数据湖的技术边界,实现"一份数据"同时支持实时消费与离线分析;
- 相比Lambda架构节省40%存储成本,降低70%运维复杂度;
- 支持端到端数据亚秒级实时可见,优于行业主流方案的分钟/秒级延迟
演讲提纲:
一. 架构设计
1. 核心流程
2. 系统模块
3. 技术优势
二. 核心场景
1. 消息队列增强
2. 实时数据湖
3. 多引擎支持
听众收益:
- 腾讯大数据湖流一体技术架构
- 腾讯大数据湖流一体技术落地实践
腾讯机器学习平台部-计算中心高级工程师,主要负责 BiFang 实时湖流一体存储引擎的架构设计和研发工作,推动湖流一体在腾讯内部的业务落地。曾在腾讯和字节跳动负责数据湖和流批一体服务的研发工作。