基于国产算力训练的最长上下文窗口大模型亮相
北京日报
2023-11-18 02:21:51

原标题:基于国产算力训练的最长上下文窗口大模型亮相

11月16日,百川智能与鹏城实验室宣布携手探索大模型训练和应用,双方展示了合作研发的基于国产算力的128K长窗口大模型“鹏城-百川·脑海33B”,该模型基于“鹏城云脑”国产算力平台训练,未来可升级至192K,是基于国产算力训练的最长上下文窗口。

众所周知,训练大模型需要海量的算力,并且大模型参数数量的增长与算力的平方成正比。大模型性能的竞争,一定程度上是算力的比拼。在复杂多变的国际环境下,国内算力供给与需求之间的“鸿沟”持续扩大,国产化算力已经成为国内大模型企业的必要选择。虽然国内诸多企业在通用AI芯片方面早有布局,在芯片量产、生态构建、应用拓展领域也取得了不错进展,但基于国产算力训练大模型,仍面临着生态建设、成本控制、能效比优化等阻碍。因此算力完全自主,仍需要芯片厂商、大模型企业、学术科研机构等多方共同努力。

据了解,鹏城实验室是网络通信领域新型科研机构,作为国家战略科技力量的一部分,鹏城实验室在国产算力大模型研发和应用等方面一直处于国内领先位置。此次其与百川智能合作研发“鹏城-百川·脑海33B”长窗口大模型,是国产算力大模型技术创新和落地的一次突破。

上下文窗口长度对模型理解和生成与特定上下文相关的文本至关重要,是大模型的核心技术之一。通常而言,更长的上下文窗口可以提供更丰富的语义信息、消除歧义,能够让模型生成的内容更准确、更流畅。

为了更好地提升“鹏城-百川·脑海33B”上下文窗口长度和模型整体性能,研发人员对模型进行了全流程优化。在数据集构建方面,采用精细的数据构造,实现了段落、句子粒度的自动化数据过滤、选择、配比,提升了数据质量;在训练架构上,通过NormHead、max-Z-Loss、dynamic-LR等自研或业界领先的模型训练优化技术,对Transformer模块进行深度优化,确保模型稳定的同时,全面提升了模型优化效率和最终效果;此外,还在全生命周期的模型工具集中,通过与北京大学王亦洲、杨耀东老师团队的合作,首创了带安全约束的RLHF对齐技术,有效提升模型内容生成质量和安全性。

未来,双方将在国产算力大模型技术创新和模型落地等方面继续加强合作,并与相关领域的优势单位如北京大学、清华大学等开展协同创新,助力本土大模型在模型性能、技术创新方面持续突破,推动本土大模型进一步开源开放,为更多行业智能化转型提供帮助和支持。

相关内容

热门资讯

原创 五... 五十亿美金砸下去,沙特图啥?一条能下“战略蛋”的无人机产线! 消息刚出来的时候,很多人可能只看到了那...
我国太空超算原型亮相 钙钛矿太... 据报道,近日,中科天算与炎和科技联合宣布,太空超算原型系统正式发布,并成功完成太空算力系统与钙钛矿能...
一台接收器就能捕捉你的输入内容... 无线键盘、鼠标等设备以其简洁高效的体验,成为现代办公生活的标配。然而,这份便利的背后,若不加注意,也...
全球最大游戏分享站之一Myri... IT之家 3 月 16 日消息,世界上最大的游戏分享站之一 Myrient 宣布将于 3 月 31 ...
万象“耕”新 智绘“丰”景——... 新华社北京3月15日电 题:万象“耕”新 智绘“丰”景——各地春耕春管一线扫描 新华社记者水金辰、陈...