研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱
中关村在线
2024-02-04 12:44:21

原标题:研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱

2024-02-04 10:57:47 作者:姚立伟

2月4日消息,研究人员发现网络上的大量内容都经过机器翻译(MT)的处理,且翻译质量普遍较低。这一现象引发了对训练大型语言模型时数据来源考量的重要性的关注。

研究团队开发了一项名为“多维cc矩阵”(MWccMatrix)的庞大资源来更深入地理解机器翻译内容的特征。该资源包含90种语言中64亿个独特的句子,并包括各种翻译元组,即相互之间进行翻译的一组句子。

研究结果显示,大部分网络内容都被翻译成多种语言,主要通过机器翻译完成。这种现象不仅仅在资源相对较少的语言的翻译中存在,而且这些语言的所有网络内容中也占很大一部分。

研究人员还注意到,在广告等目的的驱使下,被翻译成多种语言的内容可能存在选择性偏差。他们得出的结论是:“虽然在过去十年里机器翻译技术取得了显著进步,但仍然无法达到人类水平的质量标准。多年来,使用当时可用的机器翻译系统将机器翻译内容添加到网络上,因此网络上大部分机器翻译内容按现代标准来看可能质量很低。这可能会导致LLM模型产生更多‘幻觉’ ,而选择偏差表明即使不考虑机器翻译错误,数据质量也可能较低。数据质量对于LLM训练至关重要,其中高质量语料库如书籍和维基百科文章通常会进行多次向上采样。”

相关内容

热门资讯

中国AI大模型调用Token量... 全球最大人工智能(AI)模型API聚合平台OpenRouter最新数据显示,3月16日至3月22日,...
透明、无毒:新型导电指甲油问世... IT之家 3 月 25 日消息,美国化学学会近期展示了一项全新研究:路易斯安那百年学院团队为解决长指...
北京理工大学携手华为揭牌全球首... 本报讯 (记者贾丽)近日,北京理工大学(以下简称“北理工”)与华为技术有限公司(以下简称“华为”)联...
一次性使用去白细胞滤器还原物质... 一次性使用去白细胞滤器还原物质(易氧化物)检测的重要性与背景 一次性使用去白细胞滤器是输血及血液制...
贵州省人工智能应用推广中心在贵... 3月24日,贵州省人工智能应用推广中心揭牌仪式在贵阳国家高新区举行,贵州省人工智能供需对接会同日召开...