返回上一页 > 明星嘉宾
2024中国软件研发创新科技峰会
王鹏
英伟达高级软件工程师

英伟达高级软件工程师,负责DPU和Infiniband基础设施平台的建设,CNCF孵化项目Volcano开源社区Maintainer。拥有十年以上大规模分布式计算、高性能计算领域的从业经验。曾就职于Platform Computing, IBM,华为云等公司,负责分布式计算平台以及容器批量调度平台的开发工作。加入英伟达后,目前专注于构建与管理AI基础设施平台。拥有容器相关技术专利,多次出席行业内技术大会。

嘉宾日程:

Flame: 新一代的AI推理框架

#AI基础设施架构与技术

〇 分享简介 〇

伴随着企业AI技术被广泛的应用到生产环境中,智能工作负载量呈螺旋式增长,选择和部署一个高效的智能负载调度系统变得至关重要。一个综合考虑了低延迟、高吞吐量和可扩展性的智能负载调度系统将有助于支持企业的AI应用,并确保系统在不断变化的环境中保持高效。

Flame是一个智能工作负载调度的分布式系统,它提供了许多针对人工智能/机器学习、高性能计算、大数据等工作负载需要的一套通用调度机制。它将尽可能地将工作负载扩展到多个节点用以进行加速计算;Flame 不仅将调度工作负载,还将调度数据。Flame 将引入分布式缓存,并将其与资源调度一起以提高数据共享;智能工作负载包括数万个短任务;Flame 利用最新特性(例如 Future, CondVar)在大规模环境中提高往返时间和吞吐量。

本次分享将探讨Flame平台在可扩展性,数据共享,混合工作负载以及吞吐量四个维度如何满足不同用户的使用场景需求,结合企业用户使用场景,会为与会者带来非常有价值的技术洞见。

〇 分享收益 〇

目标:

1、深入了解智能工作负载的特点,结合分布式调度系统的经验为AI任务调度平台赋能。

2、帮助企业了解AI推理任务在实际生产中的应用。

3、帮助用户构建一个通用的智能工作负载调度系统,以提高用户资源利用率。

成功要点:

1、分布式工作负载调度与数据缓存技术相结合,从而节省数据传输时间,增加集群任务吞吐量。

2、从用户使用场景出发,构建智能工作负载调度系统,提升资源使用率。

启示:

‌推理框架通过其高性能、‌高效能、‌广泛兼容性和灵活性等方面的优势,‌给开发者的工具和平台,‌更多的加速深度学习推理应用的开发和部署,利于更多构建 AI 开发相关应用。

〇 分享亮点 〇

1、Flame平台适用场景

2、Flame技术架构及核心组件

1)Flame API

2)Session manager

3)Execute manager

3、Demo

1)Monte Carlo计算Pi

2)矩阵乘法。

4、Flame roadmap技术路线图。

5、QA

09 月 22 日 11:00 - 11:50