返回上一页 >HAIC2025之AI超集群架构创新与系统级优化分论坛召开,共探算力升级新路径 中科曙光主办AI超集群分论坛,以软硬协同创新赋能产业升级
HAIC2025之AI超集群架构创新与系统级优化分论坛召开,共探算力升级新路径 中科曙光主办AI超集群分论坛,以软硬协同创新赋能产业升级
简介

#大会动态

光合组织2025人工智能创新大会

        当前,大模型训练、高通量推理等场景的算力需求呈指数级增长,构建高效可扩展的AI超集群已成为产业核心命题。2025年12月18日,光合组织2025人工智能创新大会(HAIC2025)“AI超集群架构创新与系统级优化”分论坛成功召开。该论坛由中科曙光主办,中国移动云能力中心、浪潮计算机、天翼云、趋境科技、芯展速等产业链头部企业齐聚一堂,围绕AI超集群架构创新、软硬协同优化、异构算力适配、开放生态构建等,展开深度技术研讨与实践交流。


        当前大模型训练对超节点的超高带宽、超低延迟、弹性扩展需求激增,对此中国移动云能力中心高级专家徐小虎指出,对比封闭超节点,开放解构架构以开放协议和统一技术栈打破封闭壁垒,在成本、可靠性、兼容性、功耗、散热等方面优势显著,已成为行业新趋势。


        对于万亿参数大模型导致的算力需求激增,本土AI芯片受海外技术封锁,叠加高功耗AI服务器散热瓶颈,面临工艺回退、算力下降、功耗攀升问题。浪潮计算机AI服务器产品总监唐洋介绍了浪潮计算机的破局方案,通过互联创新、散热创新和系统创新,为AI集群软硬协同升级提供高效落地路径。


        中科曙光智能计算产品事业部的刘晓萌,立足国内外技术趋势与行业动态,深入剖析 AI 基础设施建设中训练、推理等模型应用的共性瓶颈,系统介绍了曙光从芯片到模型的软硬协同优化路径与行动指南,包括AI集群系统架构软硬协同全局优化与AI模型性能分析瓶颈定位等应用优化。其中,基于理论分析与实测数据打造AI模型性能量化分析平台,搭建起从单点性能到系统能效的软硬协同桥梁。同时以数据为导向,支撑超节点、超集群等高密开放、长稳可靠的系统工程化落地,充分体现了软硬协同价值与开放生态的赋能能力。


        天翼云科技有限公司公有云事业部的瞿隆,指出当前云上AI训推存在异构算力适配难、环境不一致、部署效率低等问题,且算力需求向推理侧倾斜、多类型硬件需协同调度。对此,天翼云的方案以Slurm调度与Apptainer容器协同为核心,凭借作业级+容器级混合调度、原生GPU感知调度、支持IB/RDMA等特性破解痛点,为AI超集群敏捷部署和弹性扩展提供了高效解决方案。


        趋境科技技术专家杨珂指出,当前大模型向长上下文、大参数量演进,推理阶段KV缓存占用量大、可复用性高但存储压力激增,且存在数据传输慢、部署门槛高等痛点,因此趋境科技推出了分离式架构下的大模型推理系统:Mooncake,通过端到端零拷贝、多层KV缓存等技术破解难题,为AI超集群推理场景提供了高性能、易落地的解决方案。


        芯展速智能科技(北京)有限公司产品技术总监李蓁聚焦“重构AI数据通路”,针对AI时代数据中心能耗压力凸显、传统架构存在数据传输效率瓶颈与算力浪费的问题,提出以Gen6技术为核心的解决方案。该方案通过高速互连、稳定链路与高性能存储节点,结合低功耗、高密度设计,实现性能与能效双重优化,为AI超集群提供全链路软硬协同支撑。


        中科曙光存储产品事业部副总裁郭照斌表示,AI超集群对存储性能、扩展性和稳定性要求持续提升,传统存储架构存在数据传输时延高、存算协同不足等问题。为此聚焦存算传紧耦合优化,曙光存储提出了以“超级隧道”技术为核心的解决方案,通过零中断、零竞争、零拷贝等核心设计,构建端到端高效数据通路,破解存储瓶颈,为AI超集群提供了稳定、可扩展、高性能的存储支撑,适配训练与推理全场景需求。


        作为HAIC2025大会“基础层”专题的核心研讨场次,本场分论坛汇聚产业链各方力量,围绕软硬协同、算力适配等关键领域展开前沿探索与深度交流。不仅为当下企业AI基础设施建设提供了兼具创新性与可落地性的实践参考方案,更将加速推动人工智能基础层技术的标准化构建与规模化应用,为“人工智能+”深度融入千行百业筑牢算力根基,助力产业智能化升级进程提速。