阿里云百万服务器研发运维运营一体化实践
〇 分享简介 〇
许多企业投入数字经济的建设中,如火如荼地进行转型。行业中业务经营模式巨变,业务种类不断增多且复杂程度快速攀升,信息化系统的使用也越来越多。意味着传统闲散的、无规则的低效率IT运维管理模式将面临淘汰,取而代之的是适合大规模、提升用户体验、覆盖运维开发一体化管理模式。尤其伴随云计算、大数据、人工智能等技术的迅猛发展,企业对于服务器的需求不断增加,维护大规模服务器网络的复杂性显著。
服务器底层技术的快速创新,存储计算分离,AI基础设施,信创等出现,为业务带来了多样化的可能性。软硬件结合,发挥硬件的最大优势,提高服务器稳定性和可靠性,成为云厂商以及各个企业的共同诉求。
本次分享将结合阿里云在百万服务器规模下的研发、运维、运营经验实践,全面分享此过程中,经典沉淀的系列性系统创新与应用。
〇 分享收益 〇
目标
1.了解百万服务器实践过程中,成本、效率和稳定性优化的实践方法
2.了解最优的基础设施服务建设
成功要点
1. 标准化建设:构建研发交付标准与自动化运维流程
2. 数字化建设:大规模数据采集实践
3. 智能化建设:预测、诊断、异常分析等多场景应用
4. 场景化建设:性能优化,端到端联动
启示
当今的基础设施场景下,需要系统化的解决大规模运维,同时当前复杂场景下,离不开端到端的联动优化,提升运维效率和稳定性。
〇 分享亮点 〇
1.服务器研发领域:建设思路,核心应用
*案例:数据驱动的硬件定制
*案例:自动化研发测试系统
2.服务器运维领域:链路设计,核心应用
*案例:百万服务器的采集能力建设
*案例:服务器智能诊断能力
*案例:监控系统设计
*案例:运维效率提升实践
3.服务器运营领域:以性能、能耗为抓手
*案例:异构服务器应用中的难点
*案例:基于能耗的多级联动
4.服务器平台一体化建设收益,降低运维成本,提升服务器质量,构建竞争力
5.未来展望
6.QA
