返回上一页 > 日程安排

 云上大模型训练及服务的基础设施架构和最佳实践

时间: 09 月 22 日 09:15 - 10:05
内容介绍:

〇 分享简介 〇

大模型正推动新一波AI浪潮,推动云计算服务的范式发生变化。同时,大模型也带动算力需求激增,这些都决定了行业更加需要强大的模型+基础设施。

今天,大模型开发风起云涌,模型即服务随之呼之欲出,各行各业都在积极拥抱这一变化。智能计算,生成式AI,产业大模型,科学智算相继涌现,对AI基础设施同样也提出更高的要求。动辄千亿、万亿参数模型的训练和应用,均依赖从算力、框架到开发平台的体系化AI基础设施及工程平台能力。

本次分享将结合阿里云服务内外部大模型研究的实践,充分展开AI智算平台的技术创新和应用。

〇 分享收益 〇

目标:

1、 智算集群创新:高性能网络、高性能文件存储、高性能计算节点

2、 软件及框架优化:分布式训练、自动容错弹性训练、RLHF训练框架、LLM压缩、推理优化等

3、 工程平台:serverless化、工程化、稳定性保障

成功要点:

以先进智算能力,全面从集群、框架到开发平台的体系化,构建完善成功的AI基础设施及工程平台能力。

启示:

当今AI行业发展的基础设施必须做到软硬结合,以提升端到端的资源有效利用率和端到端的开发效率。

〇 分享亮点 〇

1. MaaS时代,先进的AI基础设施

2. 阿里云的最佳实践

3. PAI灵骏智算服务浅析及核心技术

a. 高性能集群

b. AI加速器

c. 工程平台、MLOps

d. 与AI MaaS社区的联动

PAI灵骏智算服务支撑MaaS创新

日程嘉宾
2023中国软件研发创新科技峰会
林伟
阿里云智能研究员,阿里云机器学习 PAI 平台和大数据平台技术负责人
阿里云智能研究员,阿里云计算平台首席架构师,阿里云人工智能平台PAI技术负责人,主攻大规模分布式训练加速、编译优化、大数据计算、分布式系统等技术工程建设和性能优化。具有17年的系统架构设计及研发经验,并在国际一流ODSI、NSDI、SIGMOD会议上多次发表论文。原微软大数据平台组的核心成员,曾在微软亚洲研究院和微软美国工作10年。