智源研究院联合共建单位发布中文互联网语料库
中国证券报
2023-11-30 04:51:52

原标题:智源研究院联合共建单位发布中文互联网语料库

中证网讯(记者 彭思雨)11月29日,智源研究院联合拓尔思等共建单位发布并开源可信中文互联网语料库(CCI v1.0.0)。该中文互联网语料库数据规模达104GB,语料库时间跨度在2001年1月至2023年11月。语料库数据主要来源于地市级以上政府门户网站、重点新闻网站、中央和地方报刊杂志、出版社等。

北京智源人工智能研究院副院长兼总工程师林咏华表示,数据决定了大模型的智力边界,已有的中文语言大模型采用的开源数据大多来自海外开源数据集。国际数据集中的中文内容占比较少,基于这些语料库训练的大模型始终是“英文思维”。建设高质量中文语料库能够从本源上解决大模型数据安全问题,保障我国大模型产业健康发展。

林咏华称,现阶段高质量语料库工作完成了第一阶段中文互联网语料库建设。第二阶段将建设综合数据集,联合建设大规模高质量文本、语音、图像、视频和多模态数据集,用于训练数据、合规性检测等方面;第三阶段将建设行业数据集,面向大模型行业应用需求,汇聚形成自动驾驶、医学文本和影像、计算机代码、网络安全等数据资源库,把生成式人工智能技术转化为生产力,支持重点行业智能化升级。

相关内容

热门资讯

AG自留染祥,榜眼签拿下新辅助... 去年状元是句号,今年状元是无言。句号给无言戴上了大红花,也是一种传承。 今年的选秀大会关注度依旧比较...
一本红证暖民心——张家界破解不... 岁末寒冬,张家界市不动产登记中心内却暖意涌动。12月14日,新松机器人·欢乐城项目“集中办证”专场最...
称霸欧洲!比亚迪甩出王炸 什么样的车企称得上“车王”? 销量?营收?规模影响力?这些都略显片面。 对内“尊重”,对外“强势”,...
2025年的二游市场:收入下滑... 最近,陀螺君在玩家社区看到一个有意思的讨论:现在的二游,已经和十年前相去甚远了。 二游品类的发展一...
第九届电力与能源工程国际会议(... 为搭建专业交流平台,汇聚全球科研学者、行业从业者与技术专家,围绕电力与能源工程领域的前沿动态,开展知...