B站可观测平台保障业务稳定性实践
〇 分享简介 〇
云计算、云原生和大数据与AI等技术的蓬勃发展,给基础架构提出了新的要求与期待。而其核心目标并没有改变,仍是保障产线系统的质量、效率和成本。在这个过程中,可观测性帮助企业更好地洞察、优化和提升价值的核心方法。
在过往这些年,围绕指标、日志、Trace等各种观测手段层出不穷,帮助企业在复杂架构和链路中响应、定位和治理问题的过程中大幅降低故障处理时长,提升处置效率。可观测体系建设的目标是明确的,但,各个公司的基架标准化水平和资源投入都不太一样,如何更加务实的建设可观测平台、更加高效的保障稳定性目标,是值得我们持续思考的。
本次分享可观测体系建设的方法和思路,以及可观测平台保障SRE稳定性目标的实践。不仅看到可观测平台自身能力建设的实践,也能看到可观测与稳定性相关的场景化案例,给与会者带来最大的借鉴。
〇 分享收益 〇
目标
1、了解如何利用可观测性分析复杂业务场景、架构链路和应用风险
2、掌握如何构建以业务稳定性为核心的可观测体系
3、学习B站可观测实践的经验教训和启示
成功要点:
1、以业务需求为导向,结合组织和资源考量,专注于业务稳定性的主要目标,建设高效务实、适合自己的可观测平台。
2、以业务稳定性为主要目标,既夯实技术底座,又提升平台效率,还能推进架构标准化与数据质量建设,助力业务稳定性提升。
启示:
1、可观测性可以帮助业务提前发现风险隐患,快速感知并定位问题,持续优化改进,压缩故障时长,提升业务稳定性。
2、不脱离业务需求去建设可观测性,不一味追求技术先进性,适合自身的方案才是最好的方案。
可观测性不仅是一种技术手段,更是一种思维方式,企业需要一套良好的文化和机制推动,让可观测性成为团队的习惯和优势。
〇 分享亮点 〇
1、业务稳定性建设痛点与对可观测性的需求分析
2、可观测体系建设的方法和思路
3、B站可观测性保障业务稳定性案例
4、QA