日前,紫光股份旗下新华三集团召开互联网行业技术研讨会,邀请近百位互联网头部企业技术专家参会,共同探讨AI Infra产业的未来趋势与挑战。会上,新华三集团副总裁、互联网事业部总经理李乔分享了新华三互联网AI Infra融合战略,充分释放“算力 x 联接 x 电力”倍增效应,为产业发展提出高效解决方案。
李乔认为,随着AI技术的深入发展,当前已迎来了AI产业革新的下半场,这一阶段的模型性能正经历着scaling laws(缩放法则)的适应性进化,一方面,大模型训练商业模式尚未闭环,算力效率尚未得到有效提升,预训练将日益向头部企业集中,马太效应凸显;另一方面,电力和绿色能源成为AI产业发展除参数、数据、算力以外的第四要素,电网局限性放大成为摆在我们面前的现实问题;与此同时,推理效果不及预期,现象级AI应用仍未出现。
新华三集团副总裁、互联网事业部总经理 李乔
李乔指出,聚焦AI Infra层面应解决单算力中心能力提升和多算力中心高效协同两大难题。如何保障算力多元化、联接标准化与架构兼容化,如何通过广域网提升多算力中心联接效率,如何根据电力和算力的部署情况,实现自动调动,做到算电协同发展,成为摆在每一位AI Infra领域从业者面前的挑战。对此,新华三集团以高效多元算力供给、高品质网络联接、算电协同管理平台和傲飞AI调度平台,打造互联网AI Infra融合战略,实现单算力中心提升与多算力中心协同。
高效多元算力供给
AGI时代,AI算力将呈现爆发式增长态势,而当前国内AI基础设施仍面临AI加速卡算力限制,硬件架构缺乏通用标准性,算力部署效率较低等诸多挑战,亟需通过提升单芯片单卡性能,构建硬件架构通用标准性,增强集群部署效率等方式,对AI Infra进行升级。对此,新华三认为,AI算力层面应当聚焦芯片算力、卡间互联和存储介质三要素,以提升AI基础设施算力性能。
芯片算力
算力和精度是GPU芯片性能最核心的指标;CPU主频、核心及AI相关指令集等优化可大幅加速AI推理效率。而更先进的芯片制程、封装工艺及芯片间互联技术将成为关键因素。
卡间互联
AI大模型训练效率依赖于互联方案,传统8-GPU单机卡间互联方案包含全直连、switch互联。随着技术迭代,GPU整机柜成为是业界下一代大规模部署的AI基础设施主流方案,多卡互联将迎来新的技术挑战。
存储介质
HBM成为高端GPU主流的显存介质,3D DRAM未来前景可期,CXL技术加速打破内存墙限制,PCIe速率提升带来了高带宽NVMe SSD速率和形态层面的全面技术迭代。
新华三集团致力于构建AI产业生态的多元算力升级,推出多款适用于各类AI场景的服务器系列并加速新架构的开发,兼容适配了业界最全的AI加速卡产品,参与各类AI行业硬件标准规范的制定和并为AI芯片厂商提供板卡级的开发合作。同时,新华三充分布局头部互联网定制化AI服务器产品,通过专属团队为互联网客户提供设计、制造等一系列服务。
高品质网络联接
AIGC大模型对算力的需求呈现爆发性指数级增长,同时带来了加速器间通信的强烈需求,如何构建一个高效的算力集群,则成为对于网络联接的一大挑战。当前典型的智算中心网络包括前端网络、本地网络和后端网络三大部分:
前端网络:也就是传统的云数据中心网络,具有大规模、虚拟化、高性能、高可用、低延时等特点,服务器侧往往采用DPU接入以卸载一部分overlay网络功能。
本地网络:即Scale-Up网络,主要用于GPU 加速卡之间的机内互联,对网络需求极高,要求高带宽、低延时和高效率,其实现路径,在新华三集团看来,需要集百家之长,借助以太网规模效应,实现内存语义,构建开放生态。
后端网络:即Scale-Out网络,也是近两年网络建设的重点内容,主要面临负载均衡和拥塞控制两大挑战,针对Scale-Out不同场景,新华三有着不同的解决方案,针对网卡能力不强或者非智能网卡场景,可以支持LBN基于端口的负载均衡;针对智能网卡场景,则可以采用DLB和FGLB全局负载均衡;针对可编程智能网卡场景,可以采用FGLB或spraylink逐包喷洒方案来达到极高吞吐;而DDC方案则可以适配任意场景,实现完美负载均衡,无需任何网络调优。
算电协同管理平台
当前,AI算力不可避免的带来能源焦虑,绿色算力与绿电成为时代主题,为此,新华三集团提出的"ALL in GREEN"全栈液冷解决方案,能够有效解决液冷技术普及面临的挑战,为绿色计算注入可持续动力。
这一创新方案具备"三大全"核心优势:全栈产品能力确保了从设计到实施的全方位产品支持,实现技术的无缝整合与高效运作;全面技术路线采用多元化的技术路径,满足不同数据中心的特定需求,确保最佳性能;全生命周期管理提供一站式服务,从规划到运维,消除落地瓶颈,解决用户在使用液冷技术过程中遇到的痛点和难点。
此外,在整体算力中心层面,新华三集团可以实现云边端协同设计,通过AI智能调节,做到光伏、储能和负载的联动,实现储能价值和收益最大化,配合电池的大数据诊断,实现电池的故障预警和寿命预测,进一步提升算力中心的整体可靠性。而对于用户新建的算力中心,新华三产品与技术支持算力数据中心碳中和解决方案,覆盖可再生清洁能源直接应用、储能、余热回收综合利用等,打造超级能源综合体,助力算力中心的绿色可持续发展。
傲飞AI调度平台
近年来,AI技术的演进和大模型的兴起带来算力需求呈指数级增长,且丰富的异构算力和超大规模的集群成为主流趋势。超大规模算力、超大规模存储、超大规模组网对算力设施建设和超大规模算力调度均提出了诸多挑战。
新华三集团充分融合十年云原生积累,全面升级傲飞算力平台,使其具备多元异构、超大规模、极致稳定、兼容开放、全栈数据和高效运营等特点,支持不同异构硬件的算子库、编译器、开发工具,同时自研统一集合通信库UCCL,实现异构GPU统一通信和模型自适应切分,能够提供训练、微调、评估、推理全流程开发服务,以高性能算力基础设施助力行业客户像使用水电一样,更普惠、更便捷的使用算力,加速AGI落地。
展望未来,随着人工智能技术的不断演进,AI Infra将在互联网行业发挥越来越重要的支撑作用。新华三集团将秉持“精耕务实,为时代赋智慧”的理念,携手合作伙伴,共同探索AI Infra发展的新路径,为互联网行业的持续创新贡献更多力量。