中国造人工智能DeepSeek有多强?
创始人
2025-02-12 11:01:07

中国造人工智能DeepSeek有多强?

短短 30 天,中国初创企业深度求索(DeepSeek)发布两款性能比肩GPT-4o的大模型。据数据显示,DeepSeek活跃用户数2月1日突破3000万,成为史上最快达成这一里程碑的应用。

价格“感人”是让DeepSeek快速出圈的第一个标签。DeepSeek-R1的API服务定价为每百万输入tokens(指文本被分割成的基本单位)1元或4元,每百万输出tokens 16元。

相较谷歌Gemini,DeepSeek-R1更便宜、上下文更长、推理性能更佳。低成本比肩OpenAI的o1模型,令硅谷的“烧钱模式”一时间遭到猛烈质疑。

DeepSeek-V3模型的训练成本为557.6万美元。相比之下,同样是开源模型的Meta旗下Llama-3.1模型训练成本超过6000万美元,而OpenAI的GPT-4o模型的训练成本为1亿美元。

DeepSeek问世之前,全球人工智能巨头不约而同走上一条参数越“炼”越大的路线。另辟蹊径的DeepSeek并不盲目追求参数之大,而是选择了一条更高效的训练方法提升性能。

“DeepSeek通过有限资源的极致高效利用,实现了以少胜多。”面壁智能首席科学家刘知远说。算力封锁下的破局,得益于DeepSeek技术架构、数据策略、工程实践三方面的关键突破。

传统大模型的架构好比高速公路,当车辆(数据)多时会导致堵车(计算慢、能耗高)。而DeepSeek架构则把一条串行的高速路,变成了辐射状的快递分拣中心,因此既能提高速度又能节约能耗。

传统的数据策略好比去农场随便采捡,常有价值不高的烂菜叶(低质量数据)。而DeepSeek创新的数据蒸馏技术,有针对性地筛选掉质量不高的烂菜叶,相比随机采样训练效率提升3.2倍。

传统大模型的训练方式好比手工造车,一次只能装配一台,效率低下。而DeepSeek的3D并行相当于通过流水线并行把造车流程拆分为10个步骤,同时组装10辆车(数据分块处理)。

◎文/新华社客户端 漫画/杨仕成

相关内容

热门资讯

无锡企业抖音推广运营:搜索排名... 最近有不少无锡的企业朋友咨询抖音推广运营的事,尤其是提到搜索排名优化和短视频SEO的时候,总有人问怎...
宝斯户外取得拼接式皮划艇结构专... 国家知识产权局信息显示,安徽省宝斯户外用品有限公司取得一项名为“一种拼接式皮划艇结构”的专利,授权公...
马斯克“星际大挪移”:月球先行... 科技狂人马斯克的宏大宇宙蓝图中,月球与火星的“星际争夺战”正悄然上演。近日,马斯克在社交平台的一番言...
华锐精密获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示华锐精密(688059)新获得一项发明专利授权,专利名为“一种...
原创 一... 随着去年下半年开启的内存和存储芯片大涨价,手机行业也终于受到了影响,如果说早期消费者可能还感知不深的...