AI时代的骨干网络:从训练超级公路到推理乡村道路
创始人
2026-04-04 11:12:31

人工智能工作负载正在迅速重塑基础设施需求和设计。目前,AI模型训练主要集中在拥有廉价电力的集中式园区,这些园区通常距离网络基础设施较远。同时,这些工作负载正在推动数据中心互连流量的增长,特别是随着分布式架构变得更加普遍,延迟要求也在收紧。

随着重心从训练转向推理,这些需求将持续演进。分布式AI工作负载、智能体系统和新兴的新型云平台正在增加对核心、边缘和云环境之间弹性连接的需求。随着推理服务更贴近用户,边缘基础设施与最终用户之间的低延迟传输变得更加关键。这些变化可能会类似于早期云采用周期的演进过程,即工作负载和数据移动从集中式中心向外扩展。

AI采用的每个阶段对基础设施设计、流量模式和连接性都有不同的要求。随着这些变化,骨干网络在分发AI驱动服务方面发挥着至关重要的作用,类似于之前的云发展。让我们首先探索这些因素如何汇聚来支持训练阶段,使公司能够开发高性能AI模型。

AI训练:穿越全球高速公路

训练涉及大规模计算工作负载,由庞大的数据集组成,这些数据集都通过集中式AI数据中心园区内的大型GPU集群进行处理。这些数据中心通常建在更偏远的地区,能够获得廉价电力,因为处理这些工作负载会消耗巨大的能源。

虽然训练中心需要高容量互连来在园区之间传输数据,但它们通常对延迟和可用性等因素不如面向用户的推理系统敏感,因为大部分处理都在数据中心内部进行。

这就是新兴的新型云服务商运营的地方,他们构建大型训练数据中心并部署庞大的GPU集群。高容量骨干网络在这里至关重要,网络底层作为AI训练的基础支撑。

最终,全球骨干网络充当AI基础设施的"高速公路",在全球分布的数据中心之间移动大量训练数据集,并以足够快的速度为GPU集群提供数据,保持大规模训练工作负载高效运行。利用相干可插拔器件的光传输系统对于扩展这些用途的数据中心互连容量至关重要。

但是一旦这些模型训练完成,运营商在边缘推理中将发挥什么作用呢?

AI推理:沿着乡村道路巡航

AI推理是指利用训练好的AI模型生成并向最终用户分发响应,例子包括企业AI智能体、AI副驾和聊天机器人。模型不再在一个巨大的数据中心运行,而是被复制并分布在整个连接基础设施中。这需要低延迟、高可用性和冗余性来确保可靠运行并最小化停机时间。

推理必须在更接近最终用户的地方进行,以确保不间断的实时功能。因此,推理需要在人口中心附近获得密集、可靠的连接,而不仅仅是廉价电力。这种平衡对许多数据中心运营商来说是一个日益严峻的挑战。

这些因素可能会推动AI基础设施更接近边缘,类似于云服务过去的发展方式。在这个阶段,公司依靠小型"乡村道路"向生活在网络角度"偏远地区"的最终用户分发响应。那么骨干网络在这里适合什么位置呢?

骨干连接不再是将庞大数据集移动到(或在)少数几个计算位置之间,而是分发训练好的模型并连接支持推理工作负载的区域基础设施。骨干网络使运营商能够将训练好的模型从集中式训练集群移动到区域数据中心,在那里它们可以在云和边缘位置复制以在本地为用户提供服务。

这一功能依赖于骨干连接将较小的数据中心和边缘位置连接在一起,作为更协调的系统发挥作用。

不同的流量模式,不同的网络设计

面对这些不同的用例,运营商现在必须应对两种不同流量模式的要求,每种都有自己的最优网络设计。虽然运营商习惯于为集中式云工作负载设计网络,但他们现在必须满足训练流量模式和推理流量模式的需求。

训练流量处理在数据中心之间大量突发传输的庞大数据集,需要大量带宽,对停机时间的敏感性较低。

推理通常涉及较小的流量,更多依赖低延迟、冗余连接。这些演进反映了云基础设施的发展历程。当云计算出现时,工作负载托管在超大规模数据中心。内容分发网络(CDN)最终出现,服务被移至更接近最终用户的位置。AI可能遵循类似的路径,从集中式训练集群转向边缘的AI智能体和推理服务。

这些不同的流量模式和需求也会影响到企业。与传统企业应用不同,AI环境产生大量的东西向流量,依赖于分布式计算资源之间的低延迟传输。

随着AI训练和推理环境跨多个区域运行,可靠的互连和弹性变得更加重要。许多企业也在采用混合架构,将集中式训练环境与分布式推理平台相结合,为弹性骨干连接、可靠互连和改进的网络可视性创造了新的需求。

前路:连接基础设施如何驱动AI

如果这些年来教会了我们什么的话,那就是技术创新是一个不可预测的旅程。无论AI如何发展,高容量骨干连接始终是每个用例的底层支撑。无论是沿着AI超级高速公路传输的训练数据集,还是沿着乡村道路巡航的推理响应,许多连接要求都是相似的。

那些增强可靠性、冗余性、容量和覆盖范围的运营商将为自己定位,以支持新型云服务商、企业、批发服务提供商和其他机构的需求,因为我们正快速进入AI时代。

Q&A

Q1:AI训练和推理在网络需求上有什么不同?

A:AI训练需要处理大量数据集的高容量互连,对延迟敏感性较低,主要在集中式数据中心进行;而AI推理需要低延迟、高可用性的连接,必须靠近用户进行分布式部署,对实时性要求更高。

Q2:为什么说骨干网络是AI基础设施的高速公路?

A:骨干网络承载着在全球分布的数据中心之间移动大量训练数据集的任务,为GPU集群提供足够快的数据供给,保持大规模训练工作负载高效运行,就像高速公路连接各个城市一样重要。

Q3:AI推理为什么需要部署在边缘位置?

A:AI推理需要为用户提供实时响应,如AI智能体、聊天机器人等应用,必须确保低延迟和不间断服务。部署在靠近用户的边缘位置可以减少网络延迟,提供更好的用户体验。

相关内容

热门资讯

2026零基础B站AI总结使用... 做HR的朋友注意了,2026年哪怕是零基础,也能搞定面试、OKR面谈记录整理,连B站上的AI类学习内...
力鸿二号可重复使用运载器征集载... 4月3日,中科宇航发布消息,力鸿二号可重复使用运载器启动载荷征集。此次征集的载荷包括科学实验方向、太...
海拔千米处,三峡夔门被“克隆” 奉节县海拔1200米的高山上 藏着一道几乎与三峡夔门 一模一样的山门 让我们跟随记者的报道 探访“克...
揭秘数字孪生钢厂:物联网可视化... 在钢铁行业这个传统印象中“高能耗、高污染、重体力”的领域,一场静悄悄的“数字革命”正在上演。想象一下...
AI竞技场上演「死间计」:GP... 新智元报道 编辑:倾倾 【新智元导读】别测算力了,今晚咱们只测「心眼子」!欢迎来到2026年首届A...