智源研究院发中文互联网语料库3.0,含1000GB高质量数据
创始人
2024-09-21 17:21:33

新京报贝壳财经讯(记者白金蕾)9月20日,在2024北京文化论坛“文化潮流:新兴业态与技术融合”平行论坛上,智源研究院天鹰语言模型负责人刘广发布了中文互联网语料库3.0。

中文互联网语料库3.0具有规模空前,来源广泛;精细标注,赋能应用;效果突破,更懂中文等特点。目前中文互联网语料库3.0(CCI3. 0)数据量高达1000GB,包含2.68亿网页;中文互联网语料库3.0高质量子集(CCI3. 0 HQ)数据量达498GB。每条语料从10多个维度进行分析标记,附有安全分数、质量分数、信息密度等参数,方便用户选择高价值数据,满足企业可行化需求,更好发挥数据效能。

据刘广介绍,数据是大模型发展的基石与瓶颈,目前模型训练对数据规模需求大幅增加,互联网站源占比导致中文数据短缺。而有标注的高质量数据才能释放人工智能的价值,如果业界将更多精力放在数据质量上,人工智能的发展才会更快。这是中文互联网语料库3.0的推出背景。

编辑 阎侠

校对 王心

相关内容

热门资讯

【维护公告】6月24日维护公告... 亲爱的少侠: 为保证服务器的稳定和提升游戏品质,天龙八部手游全区全服将于6月24日4:00~11:...
摸头闪避神作!印度首款3A游戏... 快科技6月23日消息,印度独立游戏开发商Aeos Games近日公布了旗下动作RPG《释放阿凡达》的...
《宝可梦GO》让全球数亿玩家当... 十年前,国内比较少见地彻底ban掉了一款看似“人畜无害”的宝可梦IP游戏——《宝可梦GO》。 这款...
传音Tecno推出Camon ... IT之家 6 月 23 日消息,传音旗下手机品牌 Tecno 日前在全球市场发布入门级新机 Camo...
华为申请数据传输方法专利,保证... 国家知识产权局信息显示,华为技术有限公司申请一项名为“数据传输方法、片上系统、交换节点、介质以及产品...