中国造人工智能DeepSeek有多强?
创始人
2025-02-12 11:01:07

中国造人工智能DeepSeek有多强?

短短 30 天,中国初创企业深度求索(DeepSeek)发布两款性能比肩GPT-4o的大模型。据数据显示,DeepSeek活跃用户数2月1日突破3000万,成为史上最快达成这一里程碑的应用。

价格“感人”是让DeepSeek快速出圈的第一个标签。DeepSeek-R1的API服务定价为每百万输入tokens(指文本被分割成的基本单位)1元或4元,每百万输出tokens 16元。

相较谷歌Gemini,DeepSeek-R1更便宜、上下文更长、推理性能更佳。低成本比肩OpenAI的o1模型,令硅谷的“烧钱模式”一时间遭到猛烈质疑。

DeepSeek-V3模型的训练成本为557.6万美元。相比之下,同样是开源模型的Meta旗下Llama-3.1模型训练成本超过6000万美元,而OpenAI的GPT-4o模型的训练成本为1亿美元。

DeepSeek问世之前,全球人工智能巨头不约而同走上一条参数越“炼”越大的路线。另辟蹊径的DeepSeek并不盲目追求参数之大,而是选择了一条更高效的训练方法提升性能。

“DeepSeek通过有限资源的极致高效利用,实现了以少胜多。”面壁智能首席科学家刘知远说。算力封锁下的破局,得益于DeepSeek技术架构、数据策略、工程实践三方面的关键突破。

传统大模型的架构好比高速公路,当车辆(数据)多时会导致堵车(计算慢、能耗高)。而DeepSeek架构则把一条串行的高速路,变成了辐射状的快递分拣中心,因此既能提高速度又能节约能耗。

传统的数据策略好比去农场随便采捡,常有价值不高的烂菜叶(低质量数据)。而DeepSeek创新的数据蒸馏技术,有针对性地筛选掉质量不高的烂菜叶,相比随机采样训练效率提升3.2倍。

传统大模型的训练方式好比手工造车,一次只能装配一台,效率低下。而DeepSeek的3D并行相当于通过流水线并行把造车流程拆分为10个步骤,同时组装10辆车(数据分块处理)。

◎文/新华社客户端 漫画/杨仕成

相关内容

热门资讯

电竞选手的一条出路被堵死了 来聊一个比较悲伤的事情,那就是电竞奥运被叫停了。就在前几天,国际奥委会(IOC)已暂停电竞委员会全部...
WBG险胜WE,jiejie发... WBG险胜WE,jiejie发文活着 LPL赛事精彩依旧在火热进行中,这一次是WBG和WE对决,谁能...
《名利场2》投票网站已开放!全... 今日,北美先锋互动影像工作室 Interactive Films LLC 正式宣布,其备受瞩目的互动...
寻根不再大海捞针!AI 助力华... 曾经,寻根问祖依赖族谱、口传与模糊记忆,难如“大海捞针”。如今,AI“秒级匹配”正助力破解寻根难题。...
著名卫视宣布停播!网友:我的童... 5月6日,@星空卫视 发布关于星空卫视暂停卫星传输服务的公告,全文如下: 亲爱的观众朋友: 自200...