用于大模型的首批中文基础语料库发布
千龙网
2023-12-24 18:57:56

原标题:用于大模型的首批中文基础语料库发布

中新网北京12月21日电 中国网络空间安全协会人工智能安全治理专业委员会20日在北京召开发布会,面向社会发布用于大模型的首批中文基础语料库。

据悉,网安协会人工智能安全治理专委会会同国家权威机构,发挥企业、高校和科研单位协同优势,通过“共建-共享”机制,汇聚一批高质量可信数据,经过去重、过滤等技术手段,形成并对社会发布首批120G中文基础语料,包括1亿余条数据,500亿个token。用户登录中国网络空间安全协会网站,点击“中文基础语料库”链接,通过注册、认证等程序,就能够下载相关语料。

网安协会人工智能安全治理专委会负责人表示,语料库建设是一项长期性、专业性的工作,需要遵循相应法规、标准和规范,需要合力共建、突破创新,推动形成科学有效的语料库汇聚、处理、使用机制,为国家人工智能技术创新和产业发展赋能。

来自专委会成员单位、大模型备案机构和相关领域科研、企业、社会组织代表近100人参加发布会。

相关内容

热门资讯

手机+充电宝=全键盘滑盖手机,... IT之家 1 月 2 日消息,今天晚间,据外媒 The Verge 报道,Clicks 将 QWER...
马钢申请全自动样桶批量化输入输... 国家知识产权局信息显示,马鞍山钢铁有限公司申请一项名为“一种全自动样桶批量化输入输出系统及方法”的专...
2025年最全电信大流量卡避坑... 办卡:微 信 公 众 号 搜【 可可 找 卡】,每天更新运营商官方高性价比套餐!帮你精准匹配适配流量...
AI竞赛进入“算账时间”:To... 来源:市场资讯 (来源:财联社) 财联社1月2日讯(记者郭松峤)“我们平台上每天有海量的客服、推荐、...
字节跳动突破:混合专家模型实现... 这项由字节跳动种子团队的吕昂、马晋、马艺元和乔思远完成的研究发表于2025年的arXiv预印本平台,...