LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
创始人
2024-08-19 17:20:47
0

新智元报道

编辑:桃子

【新智元导读】合成数据2.0秘诀曝光了!来自微软的研究人员们提出了智能体框架AgentInstruct,能够自动创建大量、多样化的合成数据。经过合成数据微调后的模型Orca-3,在多项基准上刷新了SOTA。

全世界高质量数据几乎枯竭。

AI科学家们为了解决这一难题,可谓是绞尽脑汁。

目前来看,合成数据或许就是大模型的未来,也成为业界公认的解决之法。

就连英伟达科学家Jim Fan曾发文表示,合成数据将提供下一万亿个高质量的训练token。

但是,用合成数据,并非完全对LLM训练有帮助。

前段时间,Nature封面研究显示,合成数据迭代9次后,会让大模型崩溃。而且,类似的研究比比皆是。

那么,我们该怎么办呢?

最近,微软团队提出了可扩展的智能体框架——AgentInstruct,可自动创建大量多样化、高质量的合成数据。

它最大的优势在于,仅只用原始数据源,就能创建完整的提示和回应。

论文地址:https://arxiv.org/pdf/2407.03502

对此,研究人员使用AgentInstruct,创建了2500万对「后训练」数据集,涵盖了多种使用技能,如文本编辑、创意写作、工具使用、编码、阅读理解等。

然后,他们利用这些数据对Mistral-7b进行后训练,得到了Orca-3模型。

与原始的Mistral-7b-Instruct相比,Orca-3在多个基准测试中,都显示出显著的性能提升。

而在数学方面上的表现,性能直接暴涨168%。

当「合成数据」遇上智能体

过去一年,我们见证了智能体的兴起。

智能体可以生成高质量的数据,通过反思和迭代,其能力反超了底层基础大模型。

在这个过程中,智能体可以回顾解决方案,自我批评,并改进解决方案。它们甚至可以利用工具,如搜索API、计算器、代码解释,来扩展大模型的能力。

此外,多智能体还可以带来更多的优势,比如模拟场景,同时生成新的提示和响应。

它们还可以实现数据生成工作流的自动化,减少或消除某些任务对人工干预的需求。

论文中,作者提出了「生成式教学」的概念。

这是说,使用合成数据进行后训练,特别是通过强大的模型创建数据,来教另一个模型新技能或行为。

AgentInstruct是生成式教学的一个智能体解决方案。

总而言之,AgentInstruct可以创建:

- 高质量数据:使用强大的模型如GPT-4,结合搜索和代码解释器等工具。

- 多样化数据:AgentInstruct同时生成提示和回应。它使用多智能体(配备强大的LLM、工具和反思流程)和一个包含100多个子类别的分类法,来创建多样化和高质量的提示和回应。

- 大量数据:AgentInstruct可以自主运行,并可以应用验证和数据过滤的流程。它不需要种子提示,而是使用原始文档作为种子。

生成式教学:AgentInstruct

我们如何创建海量数据?如何保证生成的数据具有多样性?如何生成复杂或微妙的数据?

为此,研究人员概述了解决这些挑战的结构化方法:

具体来说,AgentInstruct定义了三种不同的自动化生成流程:

内容转换流程:将原始种子转换为中间表示,简化了针对特定目标创建指令的过程。

种子指令生成流程:由多个智能体组成,以内容转换流程的转换后种子为输入,生成一组多样化的指令。

指令改进流程:以种子指令流程的指令为输入,迭代地提升其复杂性和质量。

接下来,研究人员为为17种不同的技能实现了这些流程,每种技能都有多个子类别。

这些技能包括阅读理解、问答、编码、检索增强生成、创意写作、工具/API使用和网络控制。

完整列表,如下表1中所示。

接下来,研究人员通过以下三种技能的案例研究,来解释这些工作流是如何运作的。

实验结果

正如开头所述,研究人员使用2580万对指令,微调Mistral-7b-v0.1模型,然后得到Orca-3。

那么经过使用AgentInstruct数据训练Orca-3,性能究竟如何?

AgentInstruct的目标是合成一个大型且多样化的数据集,其中包含不同难度级别的数据。

在这个数据集上,像Orca-2.5、Mistral-Instruct-7b和ChatGPT这样的基准模型得分远低于10分,显示出它们相对于GPT-4(被指定为基准,得分为10)的劣势。

图4中描绘的性能比较展示了基准模型与Orca-3之间的对比分析。

这个图显示了在AgentInstruct数据的支持下,后训练过程中各种能力的显著提升。

表2概括了所有评估维度的平均得分。

平均而言,包括每轮训练轮后的Orca-3,AgentInstruct数据的引入使性能相比Orca 2.5基准提高了33.94%,相比Mistral-Instruct-7B提高了14.92%。

刷新多项基准SOTA

表3中给出了每个基准的所有基线的结果。

比如,在AGIEval提升40%,在MMLU上提升19%,在GSM8K上提升54%,在BBH上提升38%,在AlpacaEval上提升45%。

此外,它在性能上持续超过其他模型,如LLAMA-8B-instruct和GPT-3.5-turbo。

就阅读理解任务来说,对于LLM至关重要。对于小模型来说,也更为重要。

通过使用AgentInstruct进行针对性训练,可以观察到Mistral的阅读理解能力有了实质性的提升(见表4)——相比Orca 2.5提高了18%,相对于Mistral-Instruct-7b提高了21%。

此外,通过利用这种数据驱动的方法,研究人员将一个7B参数的模型在LSATs的阅读理解部分的表现,提升到了与GPT-4相匹配的水平。

再拿数学来说,通过AgentInstruct,成功提升了Mistral在从小学到大学水平的各种难度数学问题上的熟练程度,如下表5所示。

在各种流行的数学基准测试上,改进幅度从44%-168%不等。

应当强调的是,生成式教学的目标是教授一种技能,而不是生成数据来满足特定的基准测试。AgentInstruct在生成式教学方面的有效性通过在各种数学数据集上的显著改进得到了证明。

表6显示了,Orca-3-7B模型和FoFo基准上,其他开源和闭源基准的性能。

另外,通过 AgentInstruct 方法,成功地将模型幻觉减少31.34%,同时达到了与GPT-4(教师)相当的质量水平。

表8显示了使用/不使用RAG的MIRAGE上所有模型的结果。

总之,AgentInstruct生成教学方法,为模型后训练生成大量多样化和高质量数据的挑战,提供了一个有前途的解决方案。

参考资料:

https://arxiv.org/abs/2407.03502

相关内容

热门资讯

祝贺!东莞寮步师生摘得全国青少... 近日,由中国科协、国家自然科学基金委、共青团中央、全国妇联和天津市人民政府共同主办的第38届全国青少...
达能CEO:上海有能力在医疗领... “达能是IBLAC的‘老朋友’,从1993年就开始参加,此后,达能的每个CEO都会来参会。一是因为会...
数据存储2030(2024版) 人类社会的文明史,就是一部信息存储方式和传播方式变革的历史。3500 多年前,甲骨文出现, 标志着人...
华为、小米等卫星手机都受影响!... 快科技9月24日消息,据中国电信官方消息,中国电信卫星公司将于2024年9月27日0时至9月27日6...
紫光展锐二季度智能手机芯片全球... 据紫光展锐官方微信号消息,近日,全球市场研究机构Counterpoint Research发布了20...
2万元的三折叠手机可能与普通人... 文|《港湾商业观察》李镭 三折叠手机时代正式开启,你准备好了吗? 9月20日上午,华为Mate X...
合肥高新“智造”亮相世界制造业... 中新网安徽新闻9月23日电(刘畅 张俊)助力探月任务的卫星、聪明灵活的人形机器人、引发全球关注的量子...
原创 探... 探秘国家电网:热门专业解锁电力未来 国家电网有限公司(State Grid Corporation ...
数智赋能 如意甘肃谱新篇 近年来,中国电信甘肃公司以智能网络、数字科技助力产业转型升级,在科技创新、乡村振兴、绿色发展等领域阔...
从“扫一屋”到“扫天下”——机... 那是2016年的早春,当人们惊讶于引力波的发现、阿尔法狗的超能时,26岁潮汕小伙张峻彬看到的是人形机...
用AI守护绿水青山,构筑森林防... 中国青年网北京9月23日电(记者 纪佳琦)“山泽救于火,草木植成,国之富也”。森林作为陆地生态系统的...
我国创造世界水冷磁体技术新高峰 22日是周日,安徽合肥西郊科学岛上的一个实验室内却十分热闹,轰鸣声从一个巨大的白色罐体传来,身着白大...
反向越级的蔚来也才刚上路 文 | 冯伟冯大白 这两天,朋友给我讲了一个故事,挺有意思,和大家分享一下。 说现在遍地都是智能手...
原创 华... 9月20日10时08分,华为首款三折叠屏手机Mate XT非凡大师正式开卖,作为华为史上最贵的智能手...
21道工序,日产达8万个!探访... (央视财经《天下财经》)如今,快速充电功能已经成为不少国产智能手机的标配,为用户使用带来了便利。一个...
在徐汇,上海两大先导产业正加速... 转自:上观新闻 日前,主题为“智汇科技创新领航”的徐汇区“人工智能+生物医药”专场路演活动在模速空...
平高电气成功研制15千伏真空发... 本报讯 (记者肖艳青)记者从平高电气官微获悉,近日,平高电气自主研发的15千伏/6300安-80千安...
湖南盐业集团数智化赋能传统产业... 人民网长沙9月23日电 近日,湖南盐业集团所属九二盐业“智慧工厂”项目一期工程成功上线运行。这家创建...
原创 南... 思韦茨冰川(Thwaites glacier)是一座位于南极洲西部区域的巨型冰川,其面积大约有19....
XR产业链引领 千年古都探索银... 来源:陕西都市快报 当科技与艺术双向奔赴,会产生怎样的火花?西安,正在“精耕细作”与“聚力爆发”中书...