DeepSeek开源第四弹“教”优化,梁文锋参与研发
创始人
2025-02-27 21:42:06

DeepSeek开源周(OpenSourceWeek)第四弹来了,DeepSeek于2月27日在X上宣布这次开源的是三项优化并行策略,并在Github上详细展开了DeepSeek-V3和R1模型背后的并行计算优化技术,通过这些阐述可以清晰了解团队是如何精细地优化计算和通信,最大限度利用GPU能力的。

这三项优化并行策略其中包括DualPipe,这是一种用于V3/R1模型训练中计算与通信重叠的双向流水线并行算法,这种算法能够完全重叠前向和后向计算通信阶段,与传统方法相比减少了“流水线气泡”(设备在某些时刻的空闲等待)。 在DualPipe的开发团队署名中,包括创始人梁文锋。

就在昨日,DeepSeek还在海内外同时宣布了API 错峰优惠,自2月26日起,北京时间每日00:30至08:30的夜间空闲时段,API 调用价格大幅下调:DeepSeek-V3 降至原价的 50%,DeepSeek-R1 更低至 25%。DeepSeek鼓励用户充分利用这一时段,享受更经济更流畅的服务体验。

另外,也有消息称,DeepSeek正寻求巩固自身优势,尽早推出R2模型,消息提到DeepSeek原本计划在5月初发布R2模型,目前会加快这一速度。DeepSeek目前并未对此回应。

此前DeepSeek在R1论文中提到,R1 的性能将在下一个版本得到改善,因为相关的RL(强化学习)训练数据还很少。随着RL数据的增加,模型解决复杂推理任务的能力持续稳定提升,且会自然涌现出一些复杂行为能力。

业界认为,DeepSeek-R2的发布可能是AI行业的一个关键节点。

相关内容

热门资讯

AI数字化互联网平台专业的口碑... 在数字经济浪潮席卷全球的今天,AI数字化互联网平台已成为企业降本增效、实现智能化转型的核心引擎。选择...
6G+AI融合时点渐近:紧随英... 《科创板日报》3月2日讯在今日举行的2026年巴塞罗那MWC大会上,高通宣布与领先的行业合作伙伴建立...
长春大医伽玛刀申请服务升级方法... 国家知识产权局信息显示,长春大医伽玛刀科技有限公司申请一项名为“服务升级方法及系统”的专利,公开号C...
AI助力医院精准管理,首个公立... 大模型能5分钟快速生成一份医院运行管理报告,还能及时发现耗材变化并提醒……3月1日,在第四届北京人工...
安徽华电宿州取得脱硫浆液测量取... 国家知识产权局信息显示,安徽华电宿州发电有限公司取得一项名为“一种脱硫浆液测量取样装置”的专利,授权...