中证网讯(记者 彭思雨)11月29日,智源研究院联合拓尔思等共建单位发布并开源可信中文互联网语料库(CCI v1.0.0)。该中文互联网语料库数据规模达104GB,语料库时间跨度在2001年1月至2023年11月。语料库数据主要来源于地市级以上政府门户网站、重点新闻网站、中央和地方报刊杂志、出版社等。
北京智源人工智能研究院副院长兼总工程师林咏华表示,数据决定了大模型的智力边界,已有的中文语言大模型采用的开源数据大多来自海外开源数据集。国际数据集中的中文内容占比较少,基于这些语料库训练的大模型始终是“英文思维”。建设高质量中文语料库能够从本源上解决大模型数据安全问题,保障我国大模型产业健康发展。
林咏华称,现阶段高质量语料库工作完成了第一阶段中文互联网语料库建设。第二阶段将建设综合数据集,联合建设大规模高质量文本、语音、图像、视频和多模态数据集,用于训练数据、合规性检测等方面;第三阶段将建设行业数据集,面向大模型行业应用需求,汇聚形成自动驾驶、医学文本和影像、计算机代码、网络安全等数据资源库,把生成式人工智能技术转化为生产力,支持重点行业智能化升级。
下一篇:“澳科一号”正式投入使用