研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱
中关村在线
2024-02-04 12:44:21

原标题:研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱

2024-02-04 10:57:47 作者:姚立伟

2月4日消息,研究人员发现网络上的大量内容都经过机器翻译(MT)的处理,且翻译质量普遍较低。这一现象引发了对训练大型语言模型时数据来源考量的重要性的关注。

研究团队开发了一项名为“多维cc矩阵”(MWccMatrix)的庞大资源来更深入地理解机器翻译内容的特征。该资源包含90种语言中64亿个独特的句子,并包括各种翻译元组,即相互之间进行翻译的一组句子。

研究结果显示,大部分网络内容都被翻译成多种语言,主要通过机器翻译完成。这种现象不仅仅在资源相对较少的语言的翻译中存在,而且这些语言的所有网络内容中也占很大一部分。

研究人员还注意到,在广告等目的的驱使下,被翻译成多种语言的内容可能存在选择性偏差。他们得出的结论是:“虽然在过去十年里机器翻译技术取得了显著进步,但仍然无法达到人类水平的质量标准。多年来,使用当时可用的机器翻译系统将机器翻译内容添加到网络上,因此网络上大部分机器翻译内容按现代标准来看可能质量很低。这可能会导致LLM模型产生更多‘幻觉’ ,而选择偏差表明即使不考虑机器翻译错误,数据质量也可能较低。数据质量对于LLM训练至关重要,其中高质量语料库如书籍和维基百科文章通常会进行多次向上采样。”

相关内容

热门资讯

《永恒围城:无尽纪元》评测:在... 不知道还有多少人记得,在网吧里,我们守着《魔兽争霸3》的局域网创建界面,只为挤进一张名为“守卫剑阁”...
等了十几年的正版“海盗王”《航... 回望00年代的中国网游,《海盗王 online》绝对是独一份的存在,尤其是1.38版本,把航海MMO...
兰州理工大学科研成果荣获202... 近日,第十七届中国产学研合作创新大会在京举行。本届大会以“科技创新与产业创新深度融合发展新质生产力”...
蓝牙断连、USB崩溃、麦克风失... 快科技3月24日消息,据WindowsLatest报道,微软确认正在测试Windows 11的一项重...
微球定制类型全解析:聚合物、磁... 微球作为生物医药、分离纯化、检测分析、靶向递送领域的核心功能材料,根据材质与功能模块不同,主要分为聚...