微软推出 “从错误中学习” 模型训练法
中关村在线
2023-11-08 00:22:47

原标题:微软推出 “从错误中学习” 模型训练法

2023-11-07 15:56:04 作者:姚立伟

微软亚洲研究院、北京大学和西安交通大学的研究人员提出了一种名为“从错误中学习(Learning from Mistake,LeMA)”的AI训练方法,旨在改进AI的推理能力。当前的大语言模型如OpenAI GPT-4和谷歌aLM-2在自然语言处理任务和思维链(chain-of-thought,CoT)推理的数学难题任务中表现不错,然而对于LLaMA-2及Baichuan-2等开源大模型来说,在处理相关问题时仍有待加强。为了提高这些大语言模型的思维链推理能力,研究团队引入了LeMA方法。

该方法主要是模仿人类的学习过程,并通过“从错误中学习”,以改进模型的推理能力。研究人员使用一对包含“错误解答”与“修正后正确答案”的数据来微调相关模型。为了获取相关数据,他们收集了5个不同大语言模型(包括LamA及GPT系列)的错误答案和推理过程,并以GPT-4作为"订正者"提供修正后的正确答案。

经过测试发现,使用改进过的LLaMA-2-70B在GSM8K上的准确率为83.5%和81.4%,而在MATH上的准确率为25.0%和23.6%。目前,研究人员已经将LeMA的相关资料公开在GitHub上,感兴趣的读者可以查看。

以上是对原文内容的改写,总字数为原文总字数的79%。

相关内容

热门资讯

原创 大... 叶子猪有玩家在问:大话手游新资料片,龙族珍藏金鳞vs无价应龙,哪一个配饰套装更好用一些?在2026年...
原创 《... 《弹壳特攻队》手游中,异世界宠物已成为战力质变的关键。本攻略深度复盘宠物强度排行,首推加菲猫与松鼠作...
《金铲铲之战》「星神」赛季上线... 近日,大平台开始推送《金铲铲之战》「星神」赛季即将上线的消息。本次更新以"科幻+奇幻"融合的宇宙美学...
永恒之塔2手游ios安卓获取教... 永恒之塔2手游作为经典IP续作,以虚幻五引擎打造,将亚特雷亚大陆的魔幻与科技交织之美展现得淋漓尽致,...
原创 L... LOL历史AD选手排行,Uzi因为没有S赛冠军,排到11名引起粉丝不满,最近这份“ADC历史地位纯荣...