2025年以来,SSD产品普遍涨价超30%,同期CPU也传出涨价信号。
这轮硬件涨价潮正在改写智算中心的成本结构——但真正让行业焦虑的,不是硬件采购成本本身,而是由性能瓶颈、资源错配,和数据孤岛带来的巨大隐性成本。例如昂贵的GPU因存储性能不足而闲置等待,冷数据占用高价存储介质,以及重复建设推高的TCO等。
有趣的是,这种焦虑催生了“涨价潮”下的一个积极效应——倒逼存储产业的价值重估。
一些头部厂商的实践数据显示,通过架构创新和智能调度,部分智算中心已实现推理时延降低80%、训练速度提升4倍。更重要的是,这种转变带来的不只是性能提升,在同等条件下,存储密度可提升70%、构建成本可降低20%。
可以预见,随着创新的浪涌式推进,硬件价格波动在未来大概率会成为常态。正是在这个背景下,存储系统的评价体系,正在经历一场从"比容量"到"比效能"的范式转变。
SSD涨价30%的表象背后,是智算中心TCO结构的失衡。行业数据显示,硬件采购成本仅占智算中心总拥有成本的30-40%,真正的成本黑洞隐藏在运维、能耗和资源闲置中。
一个典型场景揭示了这种失衡:某互联网公司采用传统"文件系统+对象存储"双轨方案,虽然单独看每套系统的性能指标都合格,但系统间数据搬运复杂、空间利用率低。更关键的是,在AI训练场景中,GPU常因存储性能不足而处于等待状态——每小时数千元的算力成本就这样被浪费了。
对比案例显示,采用融合存储方案可节省50%的空间,并降低20%构建成本。这种差异揭示了一个核心逻辑的转变:过去衡量存储系统的标准是"每TB多少钱",现在应该计算的是"每TB有效数据的全生命周期成本"。
当硬件价格持续波动,这种思维转变变得更加迫切。
AI训练中存在一个普遍现象:GPU利用率不足,算力在等数据。这个瓶颈不在GPU本身,而在存储与计算间的数据传输效率。
端到端的架构突破
一个有效的解决思路是端到端优化:减少中间拷贝、降低协议开销、提升并发能力。例如曙光存储推出的ParaStor F9000分布式全闪存储,就通过超级隧道技术,构建了零中断、零竞争、零拷贝的数据通路,配合NVMe与RDMA协议,从底层建设起了一条存储到计算的高速通道。
这种架构创新带来的效果是实质性的。中国移动呼和浩特数据中心采用前述方案,实现了存储网络带宽提升2倍、延迟降低3倍的效果。单节点190GB/s的带宽可同时支撑约38块GPU卡训练。
在IO500这一存储性能基准测试中,曙光ParaStor将世界纪录提高146%,其性能可以满足十万卡集群数十TB/s的访问需求。
这些数字是对于这套思路及架构创新的肯定:让昂贵的GPU不再闲置。这才是应对涨价的根本——提升整体系统效能,而非单纯降低单一部件成本。
软件算法的对冲作用
架构创新之外,软件层面的智能优化也在发挥作用。当冷热数据不分、高性能存储被低价值数据占用时,智能分层技术可以自动将热数据迁移至全闪层、温冷数据保留在高密介质中。
中国移动呼和浩特数据中心使用了曙光StorInsight智能分析工具,通过实时采集IO特征,来实现热数据自动迁移至全闪层、温冷数据留存于高密介质的策略。同时,配合先进纠删码算法,中国移动可以把存储资源利用率提升35%、空间利用率提升至91%以上。
值得注意的是,这里应用的动态电压调节技术还能根据负载调整能耗,使能效比提升45%以上。数据压缩与去重技术则可使可用容量提升2-5倍。
在硬件涨价的背景下,这些软件优化手段,是对冲成本压力最“便宜”的工具。
系统协同的延伸
存算网一体化、多协议统一管理正在成为趋势。从全域系统架构出发,推动跨部件、跨系统的整体协同,可有效实现从数据清洗标注到模型部署的全链路效能优化。
在中国移动的实践中,通过"6PB全闪+30PB混闪"的分层配置,曙光存储系统支撑起了40多个行业大模型的异构数据管理需求。
思路优化与架构创新可以有效应对涨价冲击,但在千行百业的复杂场景中,并不存在“万金油式”的应对策略。
AI训练场景的极致追求
AI训练是涨价冲击最大的场景:GPU昂贵、训练周期长、对存储性能要求极高。在这个场景下,性能为王。
中国移动设立在呼和浩特的数据中心支持了九天大模型、昆仑大模型等千亿参数大模型的训练,以及边缘推理、云游戏、云渲染等智算应用,是这类场景中的典型。曙光ParaStor F9000通过超级隧道技术,构建了端到端的数据通路,可将2U24盘位NVMe全闪节点带宽提升5.5倍,推理时延降低80%、训练速度提升4倍,将万亿参数模型训练周期缩短了60%以上。
更多的实践数据显示,这一构建策略下,这里的投资逻辑很清晰:用存储性能提升换取GPU利用率提升,虽然存储系统投资增加,但让总体TCO更优。
混合场景的平衡术
不是所有数据都需要极致性能。对于混合负载场景,平衡性能与成本才是关键。
曙光ParaStor S6000分布式混闪存储采用4U74盘位高密设计,单框容量为1.44PB,存储密度提升70%,相较传统方案降低20%构建成本。搭配业内首款高密度液冷方案,存储节点PUE值低于1.2,结合液冷计算节点,更可实现数据中心PUE≤1.1。正是借助这一优势,中国移动呼市数据中心规模化应用后,有效实现了降低空间占用与制冷能耗的目标,为EB级超大规模AI基础设施提供了建设参照。
这种方案在大容量硬盘供应不稳、交付周期长的背景下,提供了灵活的选择空间。
对于AI推理、高频量化交易等极端性能场景,曙光FlashNexus集中式全闪存储以3000万IOPS、0.202ms时延刷新全球纪录,为特定需求提供了解决方案。
SSD涨价只是开始。CPU价格上涨的信号已经传来,这对存储系统提出了更高要求。
系统级优化已经被证明是一条有效的应对思路。例如曙光存储超级隧道技术的硬件卸载能力,可以把数据校验、协议解析等任务交由智能网卡处理,释放30%以上CPU算力用于模型推理。RDMA零拷贝机制则减少了数据搬运开销,避免CPU资源争用。与此同时,存算分离架构与智能调度进一步优化了资源分配,可以从系统层面缓解核心部件涨价带来的TCO压力。
实际案例显示,这种系统级优化可以带来显著效果:初期投资虽然增加5%,但3年TCO可降低25%。
这揭示了一个更深层的产业逻辑:未来的竞争不在单点突破,而在系统级优化能力。在供应链不确定性成为常态的背景下,效能优先配合自主可控,正在成为新的技术路线选择。
2025年的涨价潮或许会成为产业史上的标志性节点:它让容量扩张的“旧时代思潮”开始走向终结,同时也开启了效能优先的“新周期”——这是存储系统的一次价值重构。