活动首页 > 嘉宾介绍
2024中国软件研发创新科技峰会
唐聪
腾讯云云原生可用性负责人

腾讯云云原生可用性负责人,腾讯云技术专家,擅长k8s和etcd领域,主导了超大规模的TKE集群控制面稳定性体系建设,目前主要负责腾讯云云原生产品可用性架构设计、风险识别及治理等工作,对云原生如何助力在线、大数据、AI等业务稳定发展,有着丰富的经验和最佳实践。


嘉宾日程:

大规模云原生集群可用性实践

#云原生架构与生态技术

〇 分享简介 〇

随着大模型的发展,对算力的需求呈爆发式增长。算力逐渐走向大规模、高性能、高效能。K8s 等云原生技术,解决了大模型训练过程中的资源管理与调度、弹性扩展、容错及高可用难题,成为大模型发展的关键支撑之一。

 OpenAI GPT系列和腾讯混元等大模型借助k8s实现了超大规模集群的并行训练,极大地提高了大模型训练效率和稳定性。

本次分享将深度剖析腾讯 TKE 及大模型团队针对超大规模集群可用性、单集群算力瓶颈等一系列挑战所采取的解决方案及最佳实践。

〇 分享收益 〇

目标:

1、熟悉大规模k8s集群的一系列致命故障风险和解决方案、最佳实践

2、熟悉Kubernetes多集群管理的实践与挑战

3、展望未来Kubernetes在AI领域的发展趋势

成功要点:

构建k8s全链路可用性风险分析图,并制定全链路隐患解决方案,并通过混沌演习、数万集群实践进行落地。

启示:

深入掌握k8s集群可用性风险与解决方案,通过云原生技术,提升业务稳定性和效率,助力业务降本增效。

〇 分享亮点 〇

1、大模型对算力的挑战与k8s的解决方案

2、大规模k8s可用性风险来源与解决方案

3、如何解决单集群的算力瓶颈

4、腾讯混元基于TKE大模型训练的实践案例

5、QA


09 月 21 日 11:00 - 11:50