研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱
中关村在线
2024-02-04 12:44:21

原标题:研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱

2024-02-04 10:57:47 作者:姚立伟

2月4日消息,研究人员发现网络上的大量内容都经过机器翻译(MT)的处理,且翻译质量普遍较低。这一现象引发了对训练大型语言模型时数据来源考量的重要性的关注。

研究团队开发了一项名为“多维cc矩阵”(MWccMatrix)的庞大资源来更深入地理解机器翻译内容的特征。该资源包含90种语言中64亿个独特的句子,并包括各种翻译元组,即相互之间进行翻译的一组句子。

研究结果显示,大部分网络内容都被翻译成多种语言,主要通过机器翻译完成。这种现象不仅仅在资源相对较少的语言的翻译中存在,而且这些语言的所有网络内容中也占很大一部分。

研究人员还注意到,在广告等目的的驱使下,被翻译成多种语言的内容可能存在选择性偏差。他们得出的结论是:“虽然在过去十年里机器翻译技术取得了显著进步,但仍然无法达到人类水平的质量标准。多年来,使用当时可用的机器翻译系统将机器翻译内容添加到网络上,因此网络上大部分机器翻译内容按现代标准来看可能质量很低。这可能会导致LLM模型产生更多‘幻觉’ ,而选择偏差表明即使不考虑机器翻译错误,数据质量也可能较低。数据质量对于LLM训练至关重要,其中高质量语料库如书籍和维基百科文章通常会进行多次向上采样。”

相关内容

热门资讯

乐晨新材料取得物料研磨装置专利... 国家知识产权局信息显示,乐晨新材料(大连)有限公司取得一项名为“一种物料研磨装置”的专利,授权公告号...
不是哥们,这年头 AI 也吸了... 2026 年 5 月 5 日,旧金山 Center for AI Safety(CAIS)发布了一篇...
停服67天后,《尘白禁区》官宣... 今日(5月7日)14时,《尘白禁区》发布「《尘白禁区》游戏服务器开放预告」,表示《尘白禁区》计划于2...
原创 英... 大家好我是指尖,王者上一次的平衡调整是在4月29日,赶上了五一假期,本周暂时还没有更新过,那一次更新...
虹视科技取得壁挂一体式显示器底... 国家知识产权局信息显示,武汉虹视科技有限公司取得一项名为“一种壁挂一体式显示器底座”的专利,授权公告...