Project-HAMi开源异构算力切片技术
〇 分享简介 〇
异构算力设备已经逐渐成为机器学习产品和服务中的常态化需求,近年来国产异构算力发展迅速,产生了一批相当有竞争力的产品。但,其相对封闭的生态与云原生粗粒度的分配方式造成了生产环境中异构算力的使用率往往不尽如人意。如编程模型的复杂性、不同硬件之间的兼容性问题、系统的可扩展性和维护成本等。随着技术的不断进步和生态系统的成熟,预计这些问题将逐渐得到解决,异构计算的应用也将越来越广泛。
为了解决这些问题,需要对接入云原生的异构设备进行切片,使任务可以使用一部分的设备,这样,多个任务可以同时无害的运行在一张卡上
本次分享将云原生集群中,不同的异构算力通过算力切片的技术,进行资源整合,以此降低国产异构算力的使用门槛,解决资源分配粒度过粗的问题,从而提升集群中异构算力设备利用率。为AI技术开发者提供借鉴。
〇 分享收益 〇
目标:
1、了解了异构算力更高效的使用方式
2、了解国内异构算力产业和云原生异构算力管理的一些瓶颈与难点,
3、了解异构计算技术的实现案例与方案,从而提升集群整体利用率。
成功要点:
1、异构计算平台将成为支持深度学习、机器学习应用的重要基础设施,同时对数据中心优化提升速度降低能耗。
2、算力切片技术将会成为未来集群中提升异构算力利用率的关键技术
启示:
Project-HAMi基于其构建的整合多种异构算力切片的集群实践具有很高的价值,可以为企业和研究机构提供更高效、灵活和可靠的计算资源解决方案。
〇 分享亮点 〇
1、背景与趋势
1)云原生已经成为标准的集群编排方式
2)异构算力已经成为MLOps不可或缺的一环
3)国产算力发展迅速,竞争力逐年上升
2、产业痛点
1)算力资源按“整卡”分配,利用率低下
2)无可靠的异构资源硬隔离机制
3)国产异构算力生态割裂,难以统一管理
3、异构算力池整合与虚拟化方案设计
1)GPU资源虚拟化方案
2)国产异构算力虚拟化方案
3)异构算力资源整合方案
第四范式一体机项目组架构师,清华大学计算机系硕士,专注于云原生以及异构算力领域,擅长云原生架构,GPU虚拟化和异构算力管理,CNCF Speaker,CNCF毕业项目volcano reviewer,CNCF Landscape项目HAMi作者,该项目已经累计部署超过10万个节点,超过40家企业采用,发表过4篇与云原生算力相关的专利,与信通院合作撰写《云原生AI技术架构白皮书》