数据中心深度解析:AI工厂功耗改变电网格局
创始人
2026-05-29 00:55:25

人工智能处理中图形处理单元(GPU)的功耗和散热需求,正在使芯片级液冷技术成为必选项。随着AI工厂建设步伐加快,这类设施对电网提出了前所未有的需求——而这些需求往往无法以行业期望的速度得到满足。

因此,我们面临着"表后"独立发电源(燃气发电、核电)大量涌现的风险,这可能在精心规划的碳预算平静局面中引发一场混乱局面。

不过,这也存在潜在的环境优势。芯片级液冷采用类似汽车散热器的闭环系统,一旦注满液体后,持续用水量极少。

这些是数据中心设备供应商施耐德电气近期举办的一场活动中的关键要点。活动中,行业人士讨论了数据中心领域即将到来的未来,并参观了TeraWulf位于安大略湖畔正在建设中的750兆瓦站点。

在这组四篇系列文章中,我们将探讨TeraWulf站点的快速建设进度、GPU功耗的大幅跃升如何决定数据中心设计变革、它们对电网和水资源使用的影响,以及传统工业区向AI工厂转型的全景。

电网成为AI革命的守门人

20世纪的数字化转型建立在这样一个基础上:科技公司设计软件和服务器,公共事业单位铺设线路并建设电站为其供电。几十年来,这套基础设施模式运转良好,增长可预测且呈线性。但生成式AI的爆发式增长打破了这一机制。

如今,我们面临巨大的能源压力。一方面,芯片供应商提供的GPU功能呈指数级增强,密度更高、功耗更大。另一方面,电网在容量、时间和物理层面遭遇根本性限制。

当数据中心运营商和企业试图扩展大规模AI训练集群时,他们发现主要瓶颈是与公用事业基础设施之间存在明显的结构性错配。

时间错配

"挑战从根本上说是时间上的错配,"电力研究院(EPRI)新兴技术主管Anuja Ratnayake表示。这是一家科学研究非营利组织。

过去20年,标准数据中心的规模通常在5兆瓦到100兆瓦之间。这种规模的设施可以在可靠的两年时间窗口内完成建设、布线并全面接入区域电网。

AI打破了这些预期。现代AI集群需要吉瓦级负载——相当于一座小城市的用电量。

"电网不可能在两年内容纳相当于一座小城市规模的并网需求,"Ratnayake说。

相反,为了获得高容量电网接入,并网时间已延长至7到10年。这迫使公用事业运营商放弃长期规划框架。传统上每年或每三年更新一次的资源计划,现在几个月就要重写一次,因为公用事业负荷预测面临大规模、不可预测的修订。核心矛盾在于,科技行业以月为单位迭代,而电力传输基础设施需要长达十年才能建成。

"脉冲"效应

AI工厂工作负载独特且不稳定的电力需求,进一步加剧了电网的物理压力。传统企业云的功耗相对稳定且可预测,根据用户流量平稳起伏。AI工作负载的构建方式不同。

在大语言模型训练阶段,数千个互联的GPU以紧密同步的步骤计算数学权重。当集群开始大规模计算时,整个数据大厅的功耗瞬间飙升。当该周期结束或暂停进行检查点同步时,负载骤降。

这产生了"脉冲"效应——电力需求的快速、高幅度振荡,可能导致本地公用事业变电站不稳定。传统电网配电网络是为平稳的交流稳定性而设计的。管理这些剧烈的功率波动需要复杂的本地化缓冲系统和创新的电网灵活性合作,以保护基础设施免受故障影响。

弥补燃气轮机积压

面对长达十年的公用事业升级等待期,数据中心运营商——至少在美国——已将发电掌握在自己手中,并引发了近期几乎绝迹的技术复兴。

"四五年前,天然气轮机几乎要走向恐龙的道路,"GE Vermova首席战略与增长官Mandar Pandit说。"一切都将转向风能和太阳能。现在,麦肯锡报告称天然气轮机有七年的积压订单。"

在整个制造业领域,燃气轮机的积压订单已膨胀至惊人的100吉瓦产能。交货周期如此之长,以至于制造商无法自信地保证在2030年或2031年之前交付。

为了弥补这四年的即时缺口,行业越来越多地转向更小、更灵活的电力资产。科技公司正在部署"航改型"发动机——本质上是经过改装用于固定工业发电的商用飞机喷气发动机。这些设备的制造和交付时间比公用事业级涡轮机短得多,因此允许运营商快速启动现场发电。

与此同时,小型模块化反应堆(SMR)被广泛讨论为未来超大型集群的终极清洁基础电源。

然而,这两种方法都伴随着重大权衡。天然气轮机提供即时、可调度且高度可靠的电力,但威胁净零目标,并需要大量前期资本支出。它们被定位为等待电网连接期间的"过渡"解决方案,但投资规模意味着必须长期运营以摊销成本。

与此同时,SMR承诺提供巨大的、零碳的、高度集中的基础电力,但受到监管障碍、未经验证的商业部署时间表和高昂的早期资本成本的制约。

表后发电,监管之外

有一个明显的趋势是转向表后现场燃气发电。这在美国最为先进,但据报道英国的开发商也进行了咨询。担忧在于,如果AI工厂可以简单地脱离公共基础设施,作为自给自足的能源孤岛运营,碳预算可能会受到燃气轮机主导的混乱局面的威胁。

虽然这可能是一个担忧,但经济性不太可能支持这种做法,施耐德电气AI和数据中心首席倡导者Steven Carlini表示。"在20世纪,我们建设了电网,这改变了每个人的生活质量和机会获取,"他说。"在21世纪,我们正在创建的基础设施层是数字层……用电网为新负载供电是最有效的方式。"

这是因为建设完全由自己本地资源组合满足的孤立数据中心在财务上极其低效。没有区域电网的平衡机制,孤立设施必须过度配置其发电资产以应对最大峰值负载和GPU集群的剧烈脉冲。这意味着天文数字的资本支出和大量能源浪费。真正的效率需要利用现有电网作为共享基础设施基础。

作为补充说明,行业观察人士指出氢动力燃气轮机的可能性——几乎可以归类为"清洁"——GE Vermova参与其中,但目前缺乏支持它的能源基础设施。

数据中心与电网运营商合作

数据中心能源压力的最终解决方案可能需要开发商与公用事业单位之间商业关系的根本性转变。

历史上,公用事业单位承担全部基础设施风险,以换取有保障的长期监管回报。由于AI公司以超高速度部署资本并快速转变战略,公用事业单位自然不愿在专用电力线路上赌上数十亿美元,因为如果科技租户搬迁或改变架构,这些线路可能成为搁浅资产。

"这是一个公用事业单位可以与数据中心分担部分风险的时刻,"Carlini说。"如果你分担风险,这允许公用事业单位踏上旅程,既不会过快做出基础设施选择,也不会创建一种将产生大量搁浅资产的影子电网。"

水资源使用的积极面?从风冷到水冷

在公众想象中,为AI热潮提供动力的数据中心已成为水文吸血鬼。随着超大规模云服务商竞相部署充满数千个高热GPU的吉瓦级"AI工厂",当地社区和环境监管机构对保持这些设施不过热所需的巨大水量越来越担忧。

"当媒体和公众看到这些头条新闻时,这是一种非常情绪化的反应,"施耐德电气冷却技术和产品开发负责人Tuan Hoang说。"他们总是问我,'为什么行业使用这么多,消耗所有资源?'"

但随着数据中心经历30年来最激进的重新设计,这种叙事可能有"保质期"。从风冷设施向芯片级液冷的转变正在重写数据大厅的环境足迹。

施耐德的工程预测表明,向液冷AI集群的转变不是增加用水量,而是提供了消除运营用水的途径。

闭环现实

芯片级液冷将铜冷板直接安装在GPU、TPU和高压CPU中最热的硅组件上。

由于液体在捕获和传递热量方面比空气有效得多,它可以在自给自足的系统中吸收大量热负荷。这个内部液体回路是严格的闭合回路。液体在服务器芯片上循环,吸收热量并返回再次冷却,而无需与外部大气相互作用。

Hoang使用了一个熟悉的汽车类比:"风冷数据中心就像老式大众汽车……它有风冷发动机。这就是数据中心几十年来的样子,负载产生的热量直接排放到空间中,排放到空气中。液冷就像现代汽车,散热器从发动机中去除热量。今天冷却汽车不需要水。AI数据中心也是如此。"

消除外部用水的真正突破在于热量最终如何排放到建筑物外部。由于芯片级系统直接在硅片处捕获热量,它们可以在更高的液体温度下运行。

施耐德电气旗下Motivair首席执行官Rich Whitmore说:"历史上,数据中心运行较冷的水温,因为这是数据中心所需要的。但液冷的有趣之处在于,我们用相当温暖的水冷却这些数据中心。"

这种升高的温度与外部空气温度之间产生了很大的温差,这意味着运营商可以使用闭环室外散热器或干式冷却器。由于散热器内的液体保持密封,只是将热量排放到流经的环境空气中,AI工厂可以在最大计算能力下运行,同时几乎不需要持续用水。

转变关键绩效指标:每瓦特Token数

这种物理工程转变正在改变数据中心行业计算成功的方式。二十年来,数据中心效率的黄金标准是电源使用效率(PUE)——一个简单的比率,用于衡量设施为保持其IT系统运行而消耗多少电力。

但在AI时代,PUE看起来像是一个不完整的指标。超大规模云服务商和企业运营商不再只关注有多少电力进入建筑物。他们现在专注于计算产出,行业正在转向应用层关键绩效指标,如每瓦特Token数和每Token成本。

"我们想从数据中心获得最大的电力产出,"Whitmore说。"AI教会我们的是,现在我们正在将电力转化为收入。因此,能够优化这些系统以获得最多的每瓦特Token数或最低的每Token成本,才是真正的价值所在。"

芯片级液冷充当这些新性能指标的终极倍增器。当GPU过热时,其内部安全机制会自动触发热节流——降低时钟速度以保护硅片——这导致Token生产骤降,而芯片继续消耗大量电力。

通过消除热瓶颈并保持稳定和最佳的硅片温度,液冷确保GPU可以在峰值性能下持续运行而不会节流。这种计算浪费的大幅减少可能意味着交付到机架的每一瓦特都能产生尽可能高的Token量。最大化每瓦特Token数和最小化每Token成本似乎将成为竞争生存的决定性因素。

优化每瓦特Token数

轨迹似乎很清晰。现代AI处理的高热需求使得向芯片级液冷的迁移完全不可避免。通过在封闭的液体管路中捕获热量并利用高温干式散热,现代AI工厂可以将其冷却需求与市政供水网络完全隔离。

但试图通过更快运行风扇或将蒸发系统推向超出其设计极限来延长传统风冷设施寿命的公司将面临双重打击。即,热节流导致的运营成本飙升,以及因不必要的水蒸发而面临的强烈监管和公众反弹。

未来属于那些优化基础设施以在每瓦特提供最大Token数的同时完全不触及当地供水的企业。

Q&A

Q1:为什么AI数据中心对电网造成如此大的压力?

A:现代AI集群需要吉瓦级电力负载,相当于一座小城市的用电量,而传统数据中心只需5到100兆瓦。更关键的是,AI训练工作负载会产生"脉冲"效应——当数千个GPU同步计算时功耗瞬间飙升,计算结束时骤降,这种剧烈波动会导致电网不稳定。而电网并网需要7到10年时间,远远跟不上AI行业几个月的迭代速度。

Q2:芯片级液冷技术如何减少数据中心的水资源消耗?

A:芯片级液冷采用闭环系统,将铜冷板直接安装在GPU等芯片上,液体在密封回路中循环吸收热量,类似汽车散热器原理。由于液冷系统可以在较高温度下运行,与外部空气温差大,可以使用干式散热器将热量排放到空气中,而不需要持续补充水。一旦系统注满液体后,运营用水量接近零。

Q3:数据中心为什么开始自建燃气发电站?

A:因为电网升级需要7到10年,而AI公司需要在两年内投产。面对这个时间缺口,美国的数据中心运营商开始部署现场天然气轮机和航改型发动机来自行发电。目前燃气轮机订单积压达100吉瓦,交货期延长到2030年后。虽然这种"表后"发电方式可能威胁碳预算目标,但能快速满足AI工厂的巨大电力需求。

相关内容

热门资讯

云应用安全与影子IT管控:Pi... 影子IT的隐患与治理挑战 随着SaaS应用的快速普及,员工在未获IT部门授权的情况下自行使用云存储、...
2026年预算4000多手机怎... 对于预算在4000多的朋友来说,2026年的手机市场选择非常丰富,无论是追求学习效率的大学生,还是想...
华为昇腾310/910芯片通过... 5月28日消息,华为昇腾310和昇腾910芯片正式通过了中国信息安全测评中心的安全可靠等级I级认证。...
跟AI聊了300小时,真有人被... AIPress(AI普瑞斯) AI真能把人夸傻掉。 这不是危言耸听。 据《纽约时报》报道,去年五月,...
谷歌AI搜索遭用户抵制,Duc... 上周,谷歌宣布对搜索功能进行大规模改版后,笔者在路上无意间听到一名女性正在打电话,说她要换用Duck...