GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现
创始人
2024-09-14 05:21:07
0

天下武功唯快不破,但 OpenAI 不走寻常路,新出的 o1 系列宣告天下:

我们更慢,但更强了。

o1 要花更多的时间思考问题,再做出反应,但在复杂推理层面直接窜了几个档位。

在国际数学奥林匹克 (IMO) 资格考试中,GPT-4o 仅正确解决了 13% 的问题,而 o1 得分为 83%。

好家伙,这数学水平,上一次见面还是小学生,现在直接博士毕业了?

OpenAI 也很得意,表示 o1 已经达到AI能力新高度了,所以直接把计数重置到1,开启新的大模型系列 OpenAI o1。

本次 OpenAI o1系列分为三个型号,最强但还未发布的 o1,o1 的预览版 o1-preview,和性价比最高的轻量版 o1-mini。

之前的 GPT 系列还被诟病更新“挤牙膏”,没想到 OpenAI 一直都是老样子,不鸣则已一鸣惊人,直接给 AI 界来了个大大大地震。

综合网络对于 o1 的报道和评论,我们注意到几个关键信息:

这可能是Scaling Law提出以来,LLM领域最重要的发现。这一进展的核心是推理时间和参数规模两条曲线的协同作用,而不是单一曲线;

o1 并非 GPT-4o 的升级版本,目前仍然无法解决像黎曼假设这样极其复杂或开放的问题,也没能解决幻觉问题。

OpenAI 对大模型的这次重新构想,无疑将对大模型的未来走向和整个AI领域的格局产生深远影响。

OpenAI的又一里程碑

奥特曼表示,o1 是他们迄今为止功能最强大、最一致的模型系列,只是使用的时候要花更多时间(凡尔赛了)。

如图所示,o1 在绝大多数重推理任务中显著优于 GPT-4o

正在休长假、沉寂了一个月的 OpenAI 的另一位联创 Greg Brockman 洋洋洒洒写了一长段推文,表扬了 o1 的超强性能,并特别指出 o1 是第一个使用强化学习训练的模型,会在回答问题之前进行深入的思考。

lmsys 也马上在 Chatbot Arena 更新了 o1-preview 和 o1-mini,欢迎大家测试。

参与研发o1的 Shengjia Zhao 很谦虚地表示,o1 并不是完美的,也不会适合所有事情。不过人们能感受到它潜力无限,并再一次感受到 AGI。

Jim Fan 认为,o1 透露出的研究进展可能是自 2022 年 OG Chinchilla 缩放定律以来 LLM 研究中最重要的发现。

他还提到了两篇近期发表的关于 Scaling Law 的论文,并指出 OpenAI 早已意识到这一点,并通过 o1 证实了这些发现。

大模型+强化学习=AGI?

大模型与强化学习的结合是近几年来的热门研究方向之一。

大模型的泛化能力和背景知识与强化学习的交互学习和任务优化相结合,可以创建出能够更好地适应复杂环境、解决多任务问题、并提供更高效和可解释决策的智能系统。这种互补性使得两者的结合成为推动人工智能发展的重要方向。

o1 大模型的发布,首次证明了语言模型可以进行真正的强化学习。而 OpenAI 的一位研究员说,o1 证明了强化学习才是通往 AGI 道路上的必备要素(RL研究者狂喜)

OpenAI 另一位专注推理的研究员也说,通过强化学习,o1 能够在做出反应进行“思考”,让他们不用再受预训练的瓶颈限制,终于可以做扩展推理计算了。

强化学习和LLM可以说是非常适配了,只不过在 o1 之前还没有人能用 LLM 真正实现强化学习。

之前就有人说,模仿是 LLM 训练的基础,而模仿其实就是强化学习的问题。

DeepMind 的新论文也有提到,与监督学习相比,强化学习可以更好地利用序列结构、在线数据并进一步提取奖励。

领导 DeepMind 强化学习研究小组的David Silver,也在前段时间的演讲中强调,“需要重新关注强化学习,才能走出 LLM 低谷。”

局限

不过,一众好评声中,也有人指出了 o1 存在的一些问题。

Andrej Karpathy 在测试后发推特说,o1-mini 还是有大模型的老毛病,问它黎曼假设这类复杂问题就偷懒逃避。

Gary Marcus 认为 o1 并不是通用人工智能(AGI),甚至离 AGI 还很远。

他尖锐地点出了 o1 的八条问题,从多个方面批评了o1模型的细节披露不足、改进不够全面,认为实际测试与宣传间存在差距,并提醒消费者要慎重。

Hugging Face 的 CEO 也表示,AI 并不是在思考,只是在在“处理”、“运行预测”……和谷歌或者计算机做的事情是一样的。这种技术系统是人类的错误印象,只是廉价的骗术和营销手段,让人误以为它比实际更聪明。

OpenAI 自己也承认了 o1 的不足。在一些自然语言任务测试中,尤其是写作能力方面,GPT-4o 还是更胜一筹。

并且,o1 的推理依然存在缺陷,在实现质的提升的同时也没能解决LLM的幻觉问题。

著名程序员、Django Web 框架的联合创建者 Simon Willison 在推特上收集在 GPT-4o 上推理失败,但在 o1 成功的例子,只找到了几个让他满意的案例。他认为从推理来看,o1 并不是 GPT-4o 的升级版。

他在博客中写道,o1 并不是简单的 GPT-4o 升级版,而是通过在成本和性能方面引入重大权衡,换取了更进一步的推理能力。

很明显,o1 和 GPT-4o 代表大模型的两个不同方向。OpenAI 也提到,以后会分别研发升级两个模型,这意味着,过去适用于 GPT-4o 的 Prompt 技巧未必同样适用于 o1。

实测

那么,o1 的表现到底怎么样呢?

在 Toqan 的排行榜中,我们可以看到 OpenAI O1 模型在 ProLLM StackUnseen 基准测试中表现出来的水平,比 SOTA 要高出 20%。

elvis 做了详细测试,他提到 o1-preview 能够一次性解决很多难以回答的问题,包括很多当前大型语言模型(LLMs)难以处理的数学问题。

OpenAI 首席研究官 Bob McGrew 在The Verge的采访中说,“从根本上说,o1 是一种新的模型模式,能够解决真正困难的问题,从而达到与人类相似的智能水平。”雷峰网雷峰网

o1-preview和o1 mini已经带给我们这么多惊喜,不敢想最后发布的o1到底能有多强悍,让我们拭目以待。

相关内容

热门资讯

曲靖师院6位学者入选2024年... 9月16日,美国斯坦福大学(Stanford University)发布了世界前2%顶尖科学家榜单(...
9月20日iPhone16正式... 9月20日,iPhone 16新品正式发售,无数忠实的果粉们早已按捺不住内心的激动,只等新机到手的那...
卷疯了!阿里宣布:降价85%! 大模型价格战继续! 9月19日,阿里巴巴2024云栖大会开幕,发布了一系列重磅的产品。同时,阿里巴巴...
鸿蒙原生版大众点评正式上架,智... 9月19日,鸿蒙原生版大众点评正式上架HarmonyOS NEXT应用市场,美团高级副总裁张川、华为...
重庆江北国际机场第四跑道试飞成... 今(19)日凌晨2时7分至5时20分,在重庆江北国际机场新建第四跑道上,一架“波音空中巨无霸”B74...
华为Mate XT 非凡大师来... “真的超出期待”,“没想到华为三折叠也可以这么轻薄”,“出门时看盘太方便了”……9月20日10:08...
广告烧钱过亿,70%用户靠投流... 文 |Tech星球,作者 |王琳 一个兽医博主在记录父亲深夜抢救母牛的过程中,使用Kimi查找“母...
吴泳铭称AI改变物理世界,阿里... “过去22个月,AI发展的速度超过任何历史时期,但我们依然还处于AGI变革的早期。生成式AI最大的想...
选树100家人工智能应用标杆企... 羊城晚报讯记者张闻报道:近日,佛山市政府办公室印发了《加快推动人工智能赋能佛山制造行动方案》(以下简...
大数据技术是什么?揭开数据时代... 大数据技术是一种新一代的技术与架构,用于解决海量、多样、快速、价值的数据的收集、存储、处理、分析和挖...
线上线下密织“一张网” 各地探... [ 当前,工信部正推动国家、省、市、县各级中小企业公共服务机构互联互通,实现政策、技术、服务“一张网...
微信能查到对方的位置吗? 在如今这个数字化时代,微信已经成为我们日常生活中不可或缺的通讯工具。很多时候,我们可能会有这样的疑问...
点亮科技之光 探索科学之美 在空间站模型中体验航天员生活,在互动展览中了解中轴线上的科技元素,在科学家博物馆里感悟科学家精神……...
原创 2... 随着2024年9月20日的临近,关于即将上市的AMD 锐龙 5 7600X3D处理器的消息已经逐渐明...
格力电器申请除湿机及其控制方法... 金融界 2024 年 9 月 20 日消息,天眼查知识产权信息显示,格力电器(赣州)有限公司,珠海格...
喜马拉雅在深圳成立互联网公司 ... 天眼查App显示,近日,深圳喜洲互联网有限公司成立,法定代表人为傅海波,注册资本1000万人民币,经...
原创 残... 虽然已经发展超过10年,但是新能源车对很多人来说,还是属于新生事物。 所以总会经常有人问,现在的电车...
2024世界制造业大会即将启幕 2024世界制造业大会(朱丽 摄) 央广网合肥9月19日消息(记者鲍玉婵)9月20日,备受瞩目的20...
苹果iPhone 16正式开售... 苹果iPhone 16系列正式开售。 9月20日早上8点,苹果新一代旗舰手机iPhone 16系列在...
Mate 70最受期待!华为三... 快科技9月20日消息,博主数码闲聊站爆料,华为今年最重磅的三款新机分别是nova 13系列、Mate...