智源研究院发中文互联网语料库3.0,含1000GB高质量数据
创始人
2024-09-21 17:21:33

新京报贝壳财经讯(记者白金蕾)9月20日,在2024北京文化论坛“文化潮流:新兴业态与技术融合”平行论坛上,智源研究院天鹰语言模型负责人刘广发布了中文互联网语料库3.0。

中文互联网语料库3.0具有规模空前,来源广泛;精细标注,赋能应用;效果突破,更懂中文等特点。目前中文互联网语料库3.0(CCI3. 0)数据量高达1000GB,包含2.68亿网页;中文互联网语料库3.0高质量子集(CCI3. 0 HQ)数据量达498GB。每条语料从10多个维度进行分析标记,附有安全分数、质量分数、信息密度等参数,方便用户选择高价值数据,满足企业可行化需求,更好发挥数据效能。

据刘广介绍,数据是大模型发展的基石与瓶颈,目前模型训练对数据规模需求大幅增加,互联网站源占比导致中文数据短缺。而有标注的高质量数据才能释放人工智能的价值,如果业界将更多精力放在数据质量上,人工智能的发展才会更快。这是中文互联网语料库3.0的推出背景。

编辑 阎侠

校对 王心

相关内容

热门资讯

诺 普 信获得实用新型专利授权... 证券之星消息,根据天眼查APP数据显示诺 普 信(002215)新获得一项实用新型专利授权,专利名为...
11000mAh 巨量电池!荣... 荣耀发了台有意思的机器。X80 Pro Max,起售价1999元,国补到手1699.15元。光看价格...
弘讯科技:子公司意大利EEI深... 证券日报网讯 6月22日,弘讯科技在互动平台回答投资者提问时表示,子公司意大利EEI深耕电力电子领域...
99%的手游,未来只有两条活路... 整点多巴胺吧。 文/以撒 不知从何时开始,葡萄君有一种感觉:市面上大部分活得过去的手游,基本都走向了...