Prometheus在大数据场景下的性能调优和最佳实践
分享简介
在当下的大数据平台中,监控已然成为了一个炙手可热的话题。能拥有一个稳定高效的监控系统是提供稳定数据服务以及智能化运维的奠基石。eBay很早就投身了这个领域,并且拥有了第一个apache顶级项目eagle。随着时间的推移,我们发现在最初的监控设计中,往往出发点会更多的考虑系统的通用性和扩展性,造成监控系统有非常多的产品线依赖。这样就会造成牵一发,动全身的现象。同时伴随着功能升级缓慢,易用性大打折扣的影响。所以根据我们自身的一些经验,我们会把日志分析的相关部分分析独立出来,从而使我们可用专注在监控“数据”上面。在这样的一个大背景下,Prometheus进入了我们的视线。我们也本着不过度封装和二次开发产品的原则,尽量能够通过高效的使用方法来挖掘现有产品的潜力。所以这次的分享将紧紧围绕在这个主题展开。
分享提纲
监控数据智能化收集,监控系统自适应扩展,监控自动化部署,监控高可用检测及恢复,报警数据自动化归类分发
分享收益
1.目标:
能够简化为大体量平台提供数据监控服务的技术门槛和降低时间。同时通过监控数据对于产品调优提供便利。相对于对于运维来说,给大家提供另外的一些想法,去提高自身产品的灵活性,以及适应灵活多变的应用场景的能力。
2.成功(或教训)要点:
方案必须简单,快速,灵活以及切实可行。然后分迭代的快速给团队带来效果。
扩大影响。对于自身产品的使用介绍以及推广。让更多的的一线工程师能够参与对于数据的收集和理解。同时这个也建立在产品易用性的基础上。
灵活。能够适应不断增加的真正的业务需求。不要将非常复杂而且不容易复用的特性带进来,增加维护的代价和提高学习曲线。
3.启示:
1)对于监控系统的使用抛砖引玉。其实监控系统对于平台性能调优,提高物理资源的使用率都能带来收益。
2)降低对于大体量平台提供数据监控服务的技术门槛以及最佳实践的若干分享。
