性能碾压英伟达B200!这家把大模型“刻”进芯片的公司什么来头?
创始人
2026-02-24 12:41:06

在人工智能竞争日益激烈的当下,延迟和成本已成为制约大模型部署主要瓶颈。对此,加拿大AI芯片初创公司Taalas 近日推出了号称“可以将任何AI模型转换为定制ASIC芯片”的技术平台。其核心逻辑在于,将存储和计算统一在单芯片上,将特定大模型的神经网络映射到硅片电路中,在 DRAM 级密度下完成所有计算。

Taalas表示,“通过消除内存-计算边界,并针对每个模型定制硅片,我们能够从根本重新设计整个硬件栈。结果是一个不依赖复杂或特殊技术的系统,没有HBM,采用先进封装、3D叠加、液冷和高速I/O。工程简洁性使系统总成本降低了数量级。从收到一个此前未曾见过的模型开始,对应的硬件版本只需两个月即可实现。”

这种优势源于其结构化ASIC设计理念:通过固定底层电路、仅调整两层掩模的方式,将芯片开发周期从传统6个月缩短至2个月,同时保持设计成本可控。

在这一技术理念的指导下,Taalas 打造了全球最快、成本最低的推理平台——针对Llama 3.1 8B模型定制的AI芯片HC1,使得其运行Llama 3.1 8B模型的速度达到了惊人的单用户每秒可生成近17000个Token,是英伟达B200的48倍,这一数据意味着在实时交互和复杂推理任务中,用户将获得近乎零延迟的体验。并且,由于没有复杂的HBM存储系统,成本和功耗也大幅降低。

根据Taalas的官方说法,其HC1系统的速度几乎是当前技术水平的10倍,制造成本只有当前领先方案1/20,功耗更是直接缩减到了当前方案的1/10。

针对特定模型定制:混合ROM和SRAM,抛弃HBM和高速I/O

虽然英伟达(NVIDIA)一直是云端人工智能(AI)芯片市场当之无愧的霸主,但随着其GPU能耗和成本越来越高,市场上也涌现了很多主打高能效和性价比优势的数据中心AI ASIC芯片厂商。比如,Grop(已被英伟达以200亿美元收购)、Etched、Grow、SambaNova、Cerebras和Tenstorrent等。

相对于英伟达GPU来说,很多的AI ASIC厂商要么选择增加大量的片上SRAM,以提升大模型的运行效率;要么牺牲一些灵活性,针对特定的一些AI模型来优化加速,以提升性能、降低成本。比如芯片初创公司Etched在2025年6月就推出了一款针对 Transformer架构模型优化的ASIC芯片,号称其AI芯片的性能达到了英伟达H100的20倍。

在Taalas看来,虽然目前的AI模型仍在持续快速发展,但是已经有很多模型达到了在一些场景下可用的程度,与其等待AI模型的发展进入稳定期,或者是花大价钱去不停地去适应模型的变化,倒不如直接将一些可用的AI模型的推理权重直接编码进芯片的晶体管里,消除所有试图让计算引擎具有可塑性、让公司能不断调整模型所带来的软件垃圾。这样做,可以极大简化AI设备的架构,消除所有串行和并行计算引擎,尤其是消除了GPU和AI XPU中存在的计算与内存之间的壁垒,无需通过HBM来获得与浮点和整数性能相匹配的高速I/O接口。

目前,Taalas 对其HC1的硬编码推理架构的具体工作细节保密。不过,据The next platform报道,Taalas产品副总裁Paresh Kharya透露,“HC1的架构基本上是这样:我们将模型嵌入其中,把模型和权重硬编码到我们称之为'mask ROM recall fabric'(掩模只读存储器回忆结构)的结构中,并与一个SRAM recall fabric(静态随机存取存储器回忆结构)配对。这两者结合在一起,既能存储模型,又能执行KV缓存的所有计算。我们还支持适配器和定制化——所有这些我们都支持。这种设计让我们在计算和存储方面都达到了超高密度,并且我们可以在存储之上以极快的速度进行计算,这正是推动密度提升和成本降低的关键。"

简单来说,Taalas创新性的存储架构包含了两部分:可编程SRAM区域,用于保存微调权重(如LoRA)和KV缓存;而模型主体则通过掩模ROM固化执行。而为弥补量化带来的精度损失,其研究团队开发了LaRA适配器进行重新训练,并配置可调上下文窗口,在灵活性与性能间取得平衡。

"在当前这一代产品中,我们的密度是——芯片硬连线(Hard-wiring)部分可承载80亿参数,再加上SRAM,让我们能够处理KV缓存、微调等适应性调整。在我们的下一代产品中,一块芯片将能够承载高达200亿参数。即使处理万亿参数的模型,我们也只需要几十块芯片,与当今市场上任何其他方案相比,这个数量都非常、非常小。"

Taalas的CEO Ljubisa Bajic则补充道:“我们这种mask ROM recall fabric的方案——也就是硬连线部分——有一个巧妙之处:我们可以用单个晶体管存储4bit数据,并同时完成与之相关的乘法运算——所有一切都在一个晶体管里完成。所以密度基本上是很疯狂的。而且这不是什么核物理——它完全是数字电路。只是一个我们不想公开的巧妙技巧。但一旦你把一切都硬连线,你就会获得这种机会,可以用完全不同的方式来布局,而不必像需要应对变化时那样妥协。关键在于,我们可以把权重和与之相关的乘法全部塞进一个晶体管里。而你知道,乘法器基本上是计算芯片里的大块头。"

“我们发明的东西其实也没什么特别难的。只是一个巧妙的技巧,只是因为没人走过这条路,所以没人发现它。我们两年多前成立时,就想彻底消除存储器和计算之间的障碍。这就是这一切的起源。现在,我们想出来的第一种方法——也是当时我们基本上能看到唯一能在可预期的时间内做出产品的方法,因为我们不想当三年后搞出一些不工作的东西的研究教授——就是迅速转向这种基于ROM的方法。我们开始详细研究它,然后意识到这其实比我们最初想的还要好。”

总结来说,Taalas声称实现了一种存内计算的极致形态。他们利用了ROM阵列的特殊连接方式,让流过晶体管的电流不仅代表存储的值,还能在模拟或数字域直接参与运算。这相当于把乘法器“压扁”进了存储阵列里。正如Ljubisa Bajic所说,“乘法器是计算里的大块头”,如果能把它和存储单元合二为一,密度的提升是指数级的。

Ljubisa Bajic进一步指出:“实际上,所有这些我们都是从零开始内部设计的。我们没有使用任何现成的组件,我们做了大量的晶体管级设计和手工布局——基本上我们整个努力最终就像是对1970年代的致敬。”

这里需要解释的是,在1970-80年代,芯片设计规模小,工程师为了追求极致的性能和面积,会亲手摆放每一个晶体管的位置,也就是全定制设计。后来随着EDA(电子设计自动化)工具的发展,大家更多采用标准单元库,像搭积木一样快速设计。

Taalas选择“手工布局”是因为他们要做的存内计算单元是全新的,没有现成的库可用。为了榨干每一寸面积、每一个晶体管的性能,他们必须回到最原始、最精细的设计方式,为这种新架构量身定制物理实现。

HC1:性能是英伟达B200的48倍,延迟及成本大幅降低

Taalas 最新推出的全球最快、成本最低的推理平台——针对Llama 3.1 8B模型定制的AI芯片HC1,是基于台积电6nm制程,面积为815mm²,拥有530亿颗晶体管,其中大多数很可能用于ROM和SRAM内存。HC1加速卡本身功耗仅200瓦,一台集成了10张HC1加速卡的双插槽X86服务器,功率也只有2500瓦,散热也只需要空气冷却。

那么,针对Llama 3.1 8B模型固化的AI芯片HC1芯片,在运行Llama 3.1 8B模型时,到底有多快,成本有多低呢?

根据Taalas公布的测试数据显示,在单用户的情况下,运行Llama 3.1 8B模型,Taalas HC1每秒可生成16960个Token,是排名第二的Cerebras(1981 Tokens/s)的近9倍,更遥遥领先于其他AI芯片,是英伟达B200的48倍。

另外,为了解决单芯片容量不足的问题,Taalas 采用了集群化扩展策略。在针对 DeepSeek R1 671B模型的测试中,Taalas通过 30 颗HC1芯片的集群配置,实现了单用户高达每秒12382个Token的生成速度,达到了8卡英伟达B200系统(每秒192个Token)的约64.5倍。

这里需要强调的是,虽然Taalas并未解释针对Llama 3.1 8B模型固化的HC1芯片为何在集群系统中运行更大的DeepSeek R1 671B也更高效,但是猜测Taalas应该也是设计了一个针对DeepSeek R1 671B优化的HC1集群版本。另外,由于其消除了“内存墙”,创新地采用了将模型的不同部分(如SRAM用于动态KV缓存,ROM用于固化权重)拆分到不同芯片上,实现高度专业化分工的协同计算,并且这30颗芯片之间采用了“分布式直连”的互联,通信协议极简、高效,也使得其应对DeepSeek R1 671B更具优势。

从每百万Token的生产成本以及每个Token间的延迟(毫秒)对比来看,Taalas的测试数据显示,在Llama 3.1 8B模型下,HC1的每百万Token生成成本最低只有英伟达B200(延迟优化)的不到1/36,只有英伟达B200(吞吐量优化)的约1/5,每个Token间的延迟也只有英伟达B200约1/50;在DeepSeek R1 671B 模型下,HC1的每百万Token生成成本最低只有英伟达B200(延迟优化)的约1/6,只有英伟达B200(吞吐量优化)的约1/3,每个Token间的延迟也只有英伟达B200约1/65。

因为HC1加速卡的速度足够快,想要获得低延迟推理不需要批量查询,这意味着Taalas设备的带宽压力很低。低到如果客户想利用多卡系统运行更大的模型,PCI-Express总线就足够了,无需英伟达AI系统所需的NVLink和NVSwitch进行复杂的通信。Taalas今年晚些时候会允许客户通过流水线并行性将工作分配到HC卡之间。

事实上,到今年夏天,Taalas将推出第二个模型,仍基于Taalas的第一代芯片平台(HC1),将支持Llama 3.1 20B模型。到今年年底时,Taalas将推出第二代芯片平台(HC2),支持一个前沿级大型语言模型——可能是更先进的Llama、DeepSeek模型,甚至两个模型可以在一组HC卡上运行推理。

总结来看,Taalas HC1在这两款模型的测试当中展现出了相比英伟达B200更低的成本和极低的延迟表现。对于已经大规模部署了Llama 3.1 8B 或 DeepSeek R1 671B 模型云服务厂商来说,部署Taalas HC1显然非常具有性价比。

Anthropic 和 OpenAI 很可能会拿起电话,希望Taalas为其模型向定制AI加速器,甚至谷歌也有可能想试试。目前,Taalas已以Ljubisa Bajic名义申请了14项专利,涵盖其多项关键技术。

有不少业内人士也认为,Taalas 走的路线可能确实是未来的一个方向,因为大模型的发展最终可能会趋于稳定,这种Token的输出速度,以及其成本和功耗上的优势,确实非常具有吸引力。

但也有很多业内人士认为,当前的大语言模型还不够可靠,特别是小模型带来的幻觉问题也无法避免,新模型的迭代速度依然很快,现在就让其中一个模型运行得更快其实意义不大。因为,一旦针对特定模型固化的ASIC芯片生产出来,它将无法去适应其他模型,后续也无法升级。

虽然Taalas 专注于将开源模型的权重固化在其 HC 系列芯片上,但显而易见的是,每次模型升级,比如从Llama 3.1到Llama 4,Taalas都需要重新调整HC系列芯片,这同样也可能会带来很大的成本。

成立不到3年,已获超2亿美元融资

Taalas 成立至今仅两年半的时间,已通过三轮风险投资筹集超过2亿美元。该公司总部位于加拿大多伦多,三位创始人都曾在明星AI芯片公司Tenstorrent工作。

其中,Taalas的CEO Ljubisa Bajic曾在AMD、英伟达担任骨干架构师,也是Tenstorrent的联合创始人。Ljubisa Bajic在互联网热潮后曾为Teralogic和Oak Technology设计视频编码器,随后跳槽至AMD,并在工程层级晋升,成为AMD公司PC和服务器混合CPU-GPU芯片设计的架构师和高级经理。他还曾在英伟达担任高级架构师一年,然后回到AMD担任集成电路设计总监两年。在离开AMD后,Ljubisa Bajic创立了Tenstorrent。2022年秋,芯片专家Jim Keller加入Tenstorrent后,Ljubisa Bajic决定离开。在休息了六个月后,Ljubisa Bajic开始开发一个完全不同的AI推理计算理念,并在多伦多创立了Taalas。

Lejla Bajic是Taalas另一位联合创始人,她是Taalas的首席运营官,也是Ljubisa Bajic的妻子。她曾在互联网泡沫泡沫期间担任FPGA制造商Altera的软件工程师,随后成为加拿大GPU制造商ATI的高级工程师,该公司于2006年7月被AMD以54亿美元收购。Lejla Bajic也在AMD工程层级逐步晋升,最终成为系统工程高级经理。她于2017年10月加入Tenstorrent从事同样的工作,并在丈夫离开后离开。

Taalas 的第三位联合创始人是 Drago Ignjatovic,他曾是高级设计工程师,负责 AMD APU 和 GPU 项目,后来接替 Ljubisa Bajic,担任 ASIC 设计总监。在Ljubisa Bajic离职创办 Tenstorrent九个月后,Drago Ignjatovic加入Tenstorrent,担任硬件工程副总裁,并与Bajic夫妇共同创立了Taalas,担任该初创公司的首席技术官。

值得注意的是,Taalas 产品副总裁Paresh Kharya曾任谷歌数据中心业务产品管理与市场高级总监三年,随后担任Google Cloud的AI基础设施产品管理总监(管理其GPU和TPU硬件及其软件栈)。

目前,Taalas 拥有25名员工,大多数是曾在AMD、苹果、谷歌、英伟达和Tenstorrent工作的工程师,他们拥有将芯片从创意转化为系统的丰富经验。据悉,Taalas仅为刚发布HC1芯片投入了3000万美元的研发,银行中仍有超过1.7亿美元的资金储备。

编辑:芯智讯-浪客剑

相关内容

热门资讯

蓝牙产品出口美国站FCCID认... FCC 认证是美国联邦通信委员会(Federal Communications Commission...
原创 时... 如今的游戏市场中,喜欢鼓吹自家作品的游戏制作人很多,愿意吐槽自家作品的却很是少见,除非那是很早之前的...
超级充电站,上线运营 近日 西咸新区秦汉新城 文创大厦超级充电站 正式上线运营 进一步完善区域 新能源充电服务网络 此次新...
开箱广货爆款!米中碧玉,广东丝... 广货爆款开箱 开箱!解码广货。每期一爆款,开箱见真章。 从一部智能手机到一辆新能源车,“广货”早已是...
4.5亿玩家的春节相聚,CFM... 接下来的半个多月里,“吃饭了吗”将成为14亿中国人听到最多的问候语之一,因为在春节期间,邻里亲朋串门...