业务驱动的超大规模智能运维实践
〇 分享简介 〇
随着企业规模的不断扩大和业务的复杂化,对运维的要求也越来越高,超大规模智能运维成为了许多企业面临的痛点。在不稳定的环境下,运维团队在复杂性管理、故障检测与诊断、弹性伸缩、自动化运维任务和容量规划等方面面临着一系列的挑战。
本次分享将结合京东在业务驱动方面的理念和实践,面对庞大的业务规模、复杂的系统架构和高效的故障排查需求。如何更深入了解业务需求更好地规划和优化运维策略,确保业务系统的稳定性和可用性。此外,也会从智能运维角度,分享利用机器学习、自动化和监控技术,实现了智能故障检测、系统弹性伸缩和自动化运维,从而显著提升运维效率和响应速度。
〇 分享收益 〇
目标
提升企业的运维效率和稳定性,降低故障风险,为企业的可持续发展提供有力支持。
成功要点
以业务驱动为理念,有针对性的规划和优化运维策略,同时引入AIOPS,持续改进和优化自动化和智能化技术,减少人工运维成本和不确定因素,提高运维效率和可靠性。
启示
在超大规模智能运维实践中,需要不断探索创新,及时采纳新技术和最佳实践,保持对技术发展的敏感性,寻找适合自身业务需求的解决方案。
〇 分享亮点 〇
1. 海量服务面临的挑战:在不稳定的环境中,构造一个稳定的系统
2. 与业务场景结合,海量服务下的架构设计策略和技术运营,
3. Serverless弹性伸缩:运用容器自动弹扩缩能力,应对S级营销活动的爆发性流量难题
4. 从AIOPS到SRE:将软件工程的方法应用于运维领域,通过智能化、自动化、监控和持续改进来确保系统的高可用性、高性能和高效率运行。
5. QA
