新存储架构解决AI推理瓶颈问题
创始人
2026-03-13 02:51:03

Lightbits Labs公司今日推出了一种新架构,旨在解决大规模人工智能推理中最顽固的瓶颈之一:大语言模型的内存需求不断增长与图形处理器有限内存容量之间日益扩大的不匹配问题。

该公司宣布与ScaleFlux公司和FarmGPU公司合作设计的解决方案,该方案结合了高性能非易失性内存快速存储、托管GPU推理基础设施以及Lightbits的LightInferra软件,让AI系统更容易持久化和重用推理过程中产生的键值缓存数据。这种方法旨在减少因重复计算上下文而导致的GPU停顿,从而提高长上下文AI工作负载的效率。

此次发布正值云运营商(如专注AI的新兴云服务商)在推理工作负载的经济性方面面临挑战之际,GPU基础设施的成本往往占据运营支出的主导地位。

Lightbits Labs首席技术官Abel Gordon表示:"GPU是相当昂贵的资源,它们是运行大语言模型的必需品,而大语言模型是任何推理解决方案的核心。"改善这些昂贵GPU的利用率是新平台的核心设计目标。

Abel说,提高推理效率最终归结为增加每个GPU能够服务的请求数量。

Gordon说:"每GPU运行更多请求的能力直接影响每Token的成本。通过将我们的托管服务与运行在ScaleFlux NVMe上的Lightbit高性能存储配对,我们能够降低首Token时间并增加GPU利用率,从而大幅降低推理的总拥有成本。"

Lightbit表示,其测试显示在相同GPU上推理请求数量最多可增加三倍,同时功耗和基础设施成本降低65%。

键值缓存挑战

问题的核心是键值缓存,它存储推理过程中生成的中间注意力向量。这些缓存值允许模型重用先前的计算,而不是重复重新计算结果。

Gordon说:"KV缓存保存所谓的注意力向量,基本上记住了之前的计算。当你处理推理请求时,你可以获得已经处理过的数据,而不是重新计算该数据。"

然而,随着模型扩展和上下文窗口增加,该缓存的大小一直在快速增长。Lightbit表示,KV缓存所需的内存量每年都在翻倍以上。

Lightbits Labs AI架构总监Arthur Rasmusson说,随着组织推向更长的上下文窗口以支持大型知识库、企业文档搜索和持久数字助手等应用,问题变得特别严重。"大语言模型的速度要求远远超过了这些芯片上能容纳的内存量,"他说。

预测性数据移动

LightInferra的方法是管理数据如何在多层内存中移动,从网络存储到系统内存再到GPU缓存。系统预测接下来需要什么信息,并将其预先定位到更接近处理器的位置。它借鉴了几十年来用于防止处理器在等待数据时停顿的CPU架构概念。

在传统架构中,"GPU必须暂停并复制到内存,"Rasmusson说。"这就是我们看到机会的地方。我们希望保持这些GPU饱和运行。"

LightInferra对内存堆栈中的访问模式和延迟进行建模,以确定何时何地放置数据。目标是即使在工作集超出GPU内存容量时也保持推理管道平稳运行。

"我们调整数据局部性以确保GPU不会等待那些数据副本,"Rasmusson说。提高Token生成速度最终允许运营商在不增加更多硬件的情况下增加吞吐量。

云和新兴云提供商"可以减少他们的GPU占用空间,或在现有占用空间内提供增加的总体集群吞吐量,"他说。

该架构目前正在进入设计合作伙伴阶段,主要与新兴云服务商合作,生产部署计划在7月份进行。

Q&A

Q1:LightInferra是什么?它能解决什么问题?

A:LightInferra是Lightbits公司开发的软件系统,旨在解决大语言模型推理中的内存瓶颈问题。它通过管理数据在多层内存中的移动,预测并预先定位所需信息,减少GPU等待数据的停顿时间。

Q2:键值缓存为什么会成为AI推理的瓶颈?

A:键值缓存存储推理过程中生成的中间注意力向量,允许模型重用先前的计算。但随着模型扩展和上下文窗口增加,缓存大小快速增长,每年都在翻倍以上,远超GPU内存容量的增长速度。

Q3:这个新架构能带来多大的性能提升?

A:根据Lightbit的测试,新架构在相同GPU上的推理请求数量最多可增加三倍,同时功耗和基础设施成本降低65%,显著提高了GPU利用率和降低了每Token的成本。

相关内容

热门资讯

雷电云手机:全场景适配 + 高... 在 2026 年的云手机市场,用户的核心需求早已从单纯的 “低价” 转向 “算力、稳定性与体验的综合...
今年部分主结构封顶!广州国际金... 中国人工智能(广州)产业园效果图和现场图。 位于广州国际金融城西区的中国人工智能(广州)产业园项目今...
2026假期玩什么?这4款“百... 2026-03-12 17:22:50 作者:狼叫兽 2026假期玩什么?这4款“百小时起步”的模...
活动爆料丨江湖机缘再临!龙运亨... 华山论剑一时爽,连胜flag一立当场倒。 别提了,组队的时候嘻嘻哈哈,结束之后,队内语音沉默震耳欲聋...
没想到有一天连虫族小狗也能失业 建设基地,采集资源,指挥千军万马奔赴战场——这些场面与过程,一直以来都是RTS游戏最大的乐趣所在。 ...