研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱
中关村在线
2024-02-04 12:44:21

原标题:研究:网络充斥低质机翻内容,大语言模型训练需警惕数据陷阱

2024-02-04 10:57:47 作者:姚立伟

2月4日消息,研究人员发现网络上的大量内容都经过机器翻译(MT)的处理,且翻译质量普遍较低。这一现象引发了对训练大型语言模型时数据来源考量的重要性的关注。

研究团队开发了一项名为“多维cc矩阵”(MWccMatrix)的庞大资源来更深入地理解机器翻译内容的特征。该资源包含90种语言中64亿个独特的句子,并包括各种翻译元组,即相互之间进行翻译的一组句子。

研究结果显示,大部分网络内容都被翻译成多种语言,主要通过机器翻译完成。这种现象不仅仅在资源相对较少的语言的翻译中存在,而且这些语言的所有网络内容中也占很大一部分。

研究人员还注意到,在广告等目的的驱使下,被翻译成多种语言的内容可能存在选择性偏差。他们得出的结论是:“虽然在过去十年里机器翻译技术取得了显著进步,但仍然无法达到人类水平的质量标准。多年来,使用当时可用的机器翻译系统将机器翻译内容添加到网络上,因此网络上大部分机器翻译内容按现代标准来看可能质量很低。这可能会导致LLM模型产生更多‘幻觉’ ,而选择偏差表明即使不考虑机器翻译错误,数据质量也可能较低。数据质量对于LLM训练至关重要,其中高质量语料库如书籍和维基百科文章通常会进行多次向上采样。”

相关内容

热门资讯

山东黄金集团深井开采实验室一项... 来源:市场资讯 (来源:山东黄金集团) 近日,从国家知识产权局获悉,山东黄金集团深井开采实验室参与研...
水田插秧之后 马云低调现身麻省... 快科技6月25日消息, 近日有网友曝出照片,阿里巴巴创始人马云在杭州参加插秧活动后,又低调前往美国麻...
端网业协同创新 中国移动河南公... 【大河财立方消息】6月25日,在2026上海世界移动通信大会期间,面向端网业协同的5G-A体验经营产...
字跳申请界面交互方法专利,提高... 国家知识产权局信息显示,北京字跳网络技术有限公司申请一项名为“界面交互的方法、装置、设备和存储介质”...
2026年准大学生万元预算OP... OPPO数码全家桶 随着2026年高考结束,准大学生们即将迎来人生的新篇章。一份能够陪伴学习、娱乐与...