报告由浙江大学王则可撰写,聚焦于DeepSeek模型在算力和成本方面的优势,深入剖析其在人工智能领域的重要意义和发展潜力,为理解国内大模型发展提供关键视角。
1. 算力与大模型发展背景:算力包含信息计算力、数据存储力和网络运载力,其发展历经多个阶段。在人工智能时代,大模型对算力需求剧增,以万亿模型为例,数据量需超1.5×10¹³,计算次数约1.5×10²⁵ 。国际企业如OpenAI通过华尔街融资获取资金,购买英伟达GPU训练大模型,进而提供服务,但面临成本高昂等问题。而国内人工智能发展虽在融资和人才方面具备可行性,但受美国禁令限制,在获取高端算力上存在困难,如2023年起美国陆续禁止出口高端AI芯片、限制Al加速器互联带宽等 。
2. DeepSeek模型优势体现:DeepSeek V3展现出显著优势。在训练成本上,与Llama 3.1相比,其训练成本大幅降低,仅为560万美元,GPU时为280万小时,而Llama 3.1的训练成本达6200万美元,GPU时3100万小时 。技术创新层面,DeepSeek采用MoE和MLA技术。DeepSeekMoE通过1个共享专家捕获通用知识,256个路由专家进行灵活知识表达,每个Token只需处理360亿参数,相比Llama 3.1的4050亿参数,显著减少计算量。MLA技术针对HBM芯片禁令,通过低秩压缩KV,使KV Cache使用降低93.3%,提升推理性能并降低成本 。在系统优化方面,DeepSeek自研轻量级框架,支持FP8训练提升算力密度,采用DualPipe实现通信计算高度重叠,还通过PTX优化绕开CUDA护城河,尽管未完全绕开CUDA,但为国产硬件设计提供了思路 。
3. DeepSeek发展历程与未来展望:从发展历程看,DeepSeek不断演进,模型规模、训练Token数量持续增加,技术不断升级。未来,DeepSeek在模型性能上虽难以实现全面超越,但在成本控制上具有优势。若中芯国际等企业突破工艺瓶颈,华为等提供高算力支持,以中国的工业化水平,国内大模型有望在全球AI竞赛中取得良好成绩,实现技术突破和商业盈利 。
4. DeepSeek在算力受限的困境下,凭借算法与系统协同优化,实现了成本的有效控制和性能的提升。它为国内大模型发展探索出一条可行路径,对打破国外技术垄断、推动中国AI产业发展具有重要意义。随着国内技术的持续进步,以DeepSeek为代表的国内大模型有望在全球AI领域占据更重要的地位 。
免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系