财中社2月11日电甬兴证券发布通信行业点评报告。据IT之家1月20日消息,幻方量化旗下AI公司深度求索(DeepSeek)正式发布DeepSeek-R1模型,并同步开源模型权重。据官方介绍,DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有少量标注数据的情况下,提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。
DeepSeek大模型版本陆续迭代,低成本高性能优势明显。据报道,2023年11月2日,DeepSeek推出首个模型DeepSeek Coder,该模型免费供商业使用且完全开源。2023年11月29日,DeepSeek LLM上线,其参数规模达到67B性能接近GPT-4,同时还发布了该模型聊天版本DeepSeek Chat。2024年5月,DeepSeek-V2发布,该模型在性能上比肩GPT-4 Turbo,价格却只有GPT-4的百分之一。2024年12月底DeepSeek-V3发布,其性能与GPT-4o和Claude Sonnet 3.5等顶尖模型相近,但训练成本很低。整个训练在2048块英伟达H800 GPU集群上完成仅花费约557.6万美元,相比之下GPT-4o等模型至少要在万个GPU量级的计算集群上训练,且使用的是性能更为优越的H100 GPU,训练成本约1亿美元。
用户增长迅速,国内外厂商积极适配DeepSeek大模型。据报道,作为幻方量化旗下的AI公司深度求索研发的国产开源大模型,DeepSeek近期连续发布的DeepSeek V3、DeepSeek-R1等AI模型展示了很好的效果和低廉的训练成本。移动应用分析机构SensorTower的数据显示,其应用软件在18天内的下载量达到1600万次,截至2025年2月4日,DeepSeek日活用户数超越了2000万,成为全球增速最快的AI应用。1月31日,英伟达发布搭载DeepSeek-R1671b的“英伟达NIM微服务”预览版,显著提升AI模型的运行效率,简化企业部署流程,降低AI落地的技术门槛。另外,AMD已将新的DeepSeekV3模型集成到Instinct MI300倍GPU上;英特尔也表示其开发的AI芯片/GPU芯片可以支持DeepSeek,有意与中国芯片合作打破英伟达打造的生态垄断。海光信息作为国产AI芯片企业,2月4日晚宣布成功完成DeepSeekV3和R1模型与海光AI加速卡DCU的适配并正式上线。
价格更便宜有利于下游应用的发展。据报道,DeepSeek-R1输入(缓存命中)、输出定价分别为每百万tokens1元、6元,低于o1的55元、438元。OpenAICEO山姆·奥尔特曼(Sam Altman)在当地时间1月23日宣布,OpenAI将推出新一代o3系列的o3-mini版本,且ChatGPT免费用户将能使用o3-mini。