智源研究院联合共建单位发布中文互联网语料库
中国证券报
2023-11-30 04:51:52

原标题:智源研究院联合共建单位发布中文互联网语料库

中证网讯(记者 彭思雨)11月29日,智源研究院联合拓尔思等共建单位发布并开源可信中文互联网语料库(CCI v1.0.0)。该中文互联网语料库数据规模达104GB,语料库时间跨度在2001年1月至2023年11月。语料库数据主要来源于地市级以上政府门户网站、重点新闻网站、中央和地方报刊杂志、出版社等。

北京智源人工智能研究院副院长兼总工程师林咏华表示,数据决定了大模型的智力边界,已有的中文语言大模型采用的开源数据大多来自海外开源数据集。国际数据集中的中文内容占比较少,基于这些语料库训练的大模型始终是“英文思维”。建设高质量中文语料库能够从本源上解决大模型数据安全问题,保障我国大模型产业健康发展。

林咏华称,现阶段高质量语料库工作完成了第一阶段中文互联网语料库建设。第二阶段将建设综合数据集,联合建设大规模高质量文本、语音、图像、视频和多模态数据集,用于训练数据、合规性检测等方面;第三阶段将建设行业数据集,面向大模型行业应用需求,汇聚形成自动驾驶、医学文本和影像、计算机代码、网络安全等数据资源库,把生成式人工智能技术转化为生产力,支持重点行业智能化升级。

相关内容

热门资讯

天下贰经典版让无数玩家重燃热血... 对,你没有看错!打个游戏竟然能领到“人才补贴”!这并非调侃或是整活,而是确确实实于近日发生在《天下贰...
打架搬砖就能赚米?还有什么理由... 你怎么知道我的童年女神复出了?而且代言的还是是陪伴了玩家 18 年的老牌国产 MMO IP《天下》。...
触乐怪话:质量上乘的小游戏 触乐怪话,每天胡侃和游戏有关的屁事、鬼事、新鲜事。 图/小罗 前段时间,我在《英雄联盟》客户端里看...
《恐鬼症》1.0版跳票延期至2... 自2020年进入抢先体验以来,合作恐怖游戏《恐鬼症》(Phasmophobia)的1.0正式版一直是...
原创 拼... 放眼整个2026年,拼多多的核心玩法依然离不开:强付费和自然流两种玩法。也就是,大家做拼多多,如果不...