谐云AI技术专家,负责谐云云边协同平台、乾坤鼎云原生AI开发一体化平台、大模型平台等业务和团队工作。在云计算、边缘计算、AI等领域深耕数年。曾在国家重点科研项目、浙江省和杭州市重大项目中负责云边协同架构设计、研发和落地,良好地支撑了边缘计算的业务场景。拥有数十项相关领域的专利申请和授权。
面向大模型的云原生算力架构设计
〇 分享简介 〇
在全球AI浪潮与政策推动下,AI大模型掀起全球人工智能浪潮,算力作为其基础“底座”至关重要。各地政策推动算力发展,优化布局,形成了积极的产业环境。构建高效、灵活、稳定的云原生算力管理平台,成为加速大模型落地实践的关键。
云技术以AI浪潮为契机,对算力管理平台的发展与痛点进行了深入细致调研,总结了不同算力供应商都面临的异构或异地算力的难以管理、算力供应与需求之间的矛盾、算力资源利用率的提升等问题与挑战。同时,围绕云原生的能力与价值,确定了云原生是算力基础设施建设的核心技术。为此,设计了基于云原生的算力管理平台,使大规模的训练、推理任务更为高效、可控。
本次分享主要聚焦帮助企业构建云原生算力架构,最大化发挥算力资源效能,让大模型的研发人员能够更好地聚焦于模型的创新、算法的突破,为各行各业的发展提供更为强大的动力。
〇 分享收益 〇
目标:
1、分享云原生算力基础设施的概念和原理,帮助大模型开发者、算力提供者拓展对现代科技基础设施的认知。
2、深入研究云原生算力架构,驱动大模型创新实践,借助实际案例,更好的帮助企业支撑需求,加快大模型迭代开发。
成功要点:
云原生的算力管理平台,可灵活、扩展、高性能、精细化的统一管理与调度能力,为异构算力统一管理与运营带来一站式解决方案,不仅为大模型应用、算力运营等提供强大的底座支撑,同时加快大模型开发部署效率。
启示:
云原生算力基础设施的建设是为AI领域服务,可以从AI大模型拓展到更多相似的业务支撑场景,在落地具体应用场景时需要充分考虑实际使用场景与未来发展趋势,对基础架构进行更新迭代,更好支撑多样化算力需求的多样化场景。
〇 分享亮点 〇
1、大模型趋势
1)算力对大模型创新实践的重要性
2、面向大模型的云原生算力架构关键要素
1)整合异构分散算力形成强算力
2)分布式并行架构支持大模型的创新效率
3)灵活扩展保证算力底座的可用性
3、面向大模型的云原生算力架构技术介绍
1)技术架构详解
2)双层调度器调度调度原理
3)细粒度资源计费计量技术
4)模型即服务-云原生AI平台
4、未来展望
5 、QA
