智源研究院联合共建单位发布中文互联网语料库
中国证券报
2023-11-30 04:51:52

原标题:智源研究院联合共建单位发布中文互联网语料库

中证网讯(记者 彭思雨)11月29日,智源研究院联合拓尔思等共建单位发布并开源可信中文互联网语料库(CCI v1.0.0)。该中文互联网语料库数据规模达104GB,语料库时间跨度在2001年1月至2023年11月。语料库数据主要来源于地市级以上政府门户网站、重点新闻网站、中央和地方报刊杂志、出版社等。

北京智源人工智能研究院副院长兼总工程师林咏华表示,数据决定了大模型的智力边界,已有的中文语言大模型采用的开源数据大多来自海外开源数据集。国际数据集中的中文内容占比较少,基于这些语料库训练的大模型始终是“英文思维”。建设高质量中文语料库能够从本源上解决大模型数据安全问题,保障我国大模型产业健康发展。

林咏华称,现阶段高质量语料库工作完成了第一阶段中文互联网语料库建设。第二阶段将建设综合数据集,联合建设大规模高质量文本、语音、图像、视频和多模态数据集,用于训练数据、合规性检测等方面;第三阶段将建设行业数据集,面向大模型行业应用需求,汇聚形成自动驾驶、医学文本和影像、计算机代码、网络安全等数据资源库,把生成式人工智能技术转化为生产力,支持重点行业智能化升级。

相关内容

热门资讯

中瑞股份获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示中瑞股份(301587)新获得一项实用新型专利授权,专利名为“...
太空超算原型系统正式发布 太空... 3月17日,早盘太空光伏概念异动拉升,协鑫集成(002506.SZ)、雅博科技涨停,华民股份(300...
对话中科院生物物理所司光伟:“... 搜狐科技《思想大爆炸——对话科学家》栏目第149期,对话中国科学院生物物理研究所研究员司光伟。 嘉宾...
任天堂Switch2大版本更新... 任天堂的Switch与Switch2都采用了混合主机的模式,主打便携的掌机模式与主打性能的TV模式。...
三角洲毁号事件新进展,号主报警... 三角洲毁号事件新进展,号主报警处理,直播间规则不能凌驾于法律之上,近日,围绕热门射击游戏三角洲行动的...