Kyligence 联合创始人兼 CTO,Apache Kylin 联合创建者及项目管理委员会成员,主创团队架构师与技术负责人,专注于大数据分析、并行计算、数据索引、关系代数、近似算法等技术。曾任 eBay 全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights 的技术负责人、摩根士丹利副总裁。
云原生大数据性能最佳实践
〇 分享简介 〇
随着云计算的发展,云上应用呈现多样性。大数据服务作为企业IT架构中不可缺少的一环,可以良好适配云的延展性和灵活性,为用户带来更加便捷的数据产品使用体验。不过,要想构建云原生环境下的数据服务,对IT架构的挑战可不小。
可以看到,云原生的存算分离架构使计算资源和存储可以独立伸缩,带来灵活性和更低成本的同时,也破坏了“数据本地性”,对大数据系统性能带来极大挑战。
本次分享从存储架构角度提出了“软亲和性”的概念,重新调整了云上存算架构,并给出了初步的性能测试结果。
〇 分享收益 〇
目标:
- 探讨云上存算分离给大数据性能带来的影响
- 用“软亲和性”设计给出一个解决方案
成功要点
- 理解云上存算分离的优势和劣势
- 理解“数据本地性”对性能的影响
- 理解“软亲和性”设计思想
启示:云上的存算分离和动态伸缩,虽然带来了成本的灵活性,但也破坏了数据本地性(data locality)。意味着大数据架构在云上需要被重新思考和设计。软亲和性只是其中的一小步。
〇 分享亮点 〇
1. 云原生存算分离架构对性能带来的挑战
2. 用“软亲和性”代替“数据本地性”
3. 基于数据软亲和性的性能架构设计
4. 性能实验结果
5. 未来展望和其他
QA
