重磅!会“思考解题逻辑”的OpenAI推理大模型登场,认知将跃升至“理科博士生水准”
创始人
2024-09-13 07:41:29
0

每经编辑 杜宇

北京时间周五凌晨1时许,AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。

图片来源:视觉中国-VCG31N2008743681

OpenAI在官网发布公告称,开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型。OpenAI表示,对于复杂推理任务而言,新模型代表着人工智能能力的崭新水平,因此值得将计数重置为1,给它一个有别于“GPT-4”系列的全新名号。

推理大模型的特点,就是AI会在回答之前花更多时间进行思考,就像人类思考解决问题的过程一样。以往的大模型,背后的逻辑是通过学习大量数据集中的模式,来预测单词生成的序列,严格来说并不是真正理解提问。

作为o1系列模型的首批版本,OpenAI仅推出了o1-preview预览版和o1-mini迷你版,而且是分阶段向付费用户、免费用户和开发者推出,且开发者的使用价格颇为昂贵。

o1模型使用成本至少是GPT-4o的3倍采用全新方法训练

据介绍,o1新模型通过背后崭新的训练方式,变得可以回答更复杂的编程、数学与科学难题,在给出答案前会先“思考”,而且速度比人类更快。更小、更便宜的迷你版聚焦在编程用例。

ChatGPT Plus和Team付费用户即刻起便能访问这两种模型,从用户界面AI模型选择器的下拉菜单中手动选择。ChatGPT Enterprise和Edu用户下周能使用这两种模式,未来某个未知时刻还将向所有免费用户提供o1-mini的访问权限。OpenAI希望以后能根据提示语自动选择正确的模型。

不过,开发人员访问o1非常昂贵,在API(应用程序编程接口)中,o1-preview每100万个输入token收费15美元,是GPT-4o成本的三倍,每100万个输出token收费60美元,是GPT-4o成本的四倍。100万个token即模型解析文字块的规模大小,相当于大约75万个单词。

OpenAI的研究负责人Jerry Tworek对媒体称,o1背后的训练方式与之前的模型有着根本不同。

首先,o1“使用了一种全新的优化算法和专门为其量身定制的新训练数据集进行训练”,这个数据集中包含“推理数据”和专门为其量身定制的科学文献。

其次,之前的GPT模型训练方法是模仿数据集的规律/范式(pattern),而o1采用“强化学习”的方式,通过奖励和惩罚来教导模型自行解决问题,再通过“思路链”(chain of thoughts)来处理用户查询的问题,给出思路链的总结摘要版,类似于人类一步步来处理问题的方式。

右图可以点开思路链看o1模型如何“思考”

对于一个复杂数学问题的思路链展示图

OpenAI认为,这种全新的训练方法会让o1模型更加准确,会减少瞎编回答的“幻觉”问题,但也无法完全杜绝出现“幻觉”。新模型与GPT-4o的主要区别在于能够更好地解决编程和数学等复杂问题,同时还能完善其推理过程、尝试不同策略,并识别和修正自身答案中的错误。

认知将跃升至“理科博士生水准”

OpenAI曾解释过,2023年发布的GPT-4类似于高中生的智能水平,而GPT-5则是完成AI从“高中生跃升至博士”的成长。这个o1模型就是其中关键的一步。

相较于GPT-4o等现有的大模型,OpenAI o1能够解决更加困难的推理问题,同时改善过往模型中存在的机制性缺陷。

举例而言,这个新模型能够数清楚strawberry里到底有几个“r”。

同时AI在解答编程问题时也会更有条理,在着手写代码前,把整个回答的流程全部思考完一遍,再动手输出代码。

例如在预设条件的写诗任务(例如第二句的最后一个单词需要以i收尾)中,“拿起笔就写”的GPT-4o的确给出了回答,但往往只会满足了一部分条件,同时不会自我纠正。这意味着AI必须在第一次生成时就能碰上正确的答案,否则就一定会出错。但在o1模型中,AI会不断试错并打磨答案,从而显著提高生成结果的准确率和质量。

有趣的是,点开AI思考的过程,还会出现AI表示“我在思考这个事情这么做行不行”、“啊时间不够了得尽快给出答案”等。OpenAI确认,这里展示的并不是原始的思维链,而是“模型生成的摘要”,公司也坦率承认这里有保持“竞争优势”的因素。

OpenAI的研究负责人Jerry Tworek透露,o1模型背后的训练与之前的产品有着根本性的区别。之前的GPT模型旨在模仿其训练数据中的模式,而o1的训练旨在让其独立解决问题。在强化学习的过程中,使用奖励和惩罚机制来“教育”AI使用“思维链”来处理问题,就像人类习得拆解、分析问题的方式一样。

根据测试,o1模型在国际数学奥林匹克的资格考试中,能够拿到83%的分数,而GPT-4o只能正确解决13%的问题。而在编程能力比赛Codeforces中,o1模型拿到89%百分位的成绩,而GPT-4o只有11%。

OpenAI表示,根据测试,在下一个更新的版本中,AI在物理、化学和生物学的挑战性基准测试中,表现能够与博士生水平类似

缺点:无法浏览实时网页、无法上传文件和图片、缺乏广泛世界知识、或更易产生幻觉

但作为o1模型的最初始版本,今日发布的o1-预览版也有明显缺点。例如,只是一款“纯文字版”,暂时无法浏览网页信息以及上传文件和图片,也就是说不具备ChatGPT的许多使用功能,在许多常见用例中不如GPT-4o那么强大,而且还有用量限制,o1预览版每周上限为30条消息,迷你版每周上限为50条。

其他被提及的局限性包括:o1模型在很多领域的能力不如GPT-4o,在关于世界的事实知识方面表现不佳;有的用例下推理能力较慢,可能需要更长的时间来回答问题;目前o1只是一个纯文本模型,缺乏针对特定文档进行推理,或者从网络收集实时信息的能力。

此外,让AI模型玩井字棋(Tic-Tac-Toe)一直被认为是个业界难题,拥有推理能力的o1新模型也还是会在这个游戏中出错,即无法完全攻克技术难关。

OpenAI还在一篇技术论文中承认,其收到了一些“轶事反馈”,称o1预览版和迷你版比GPT-4o及其迷你版更容易产生“幻觉”,也就是AI仍在很自信地编造答案,而且o1很少会承认它不知道问题的答案。

知名科技媒体Techcrunch指出,OpenAI在o1模型相关的博文中点明,其决定不向用户展示这一新模型的原始“思维链”,而是选择在答案中给出思维链的总结摘要,目的是为了维持“竞争优势”,为了弥补可能的缺点,“我们努力教导模型在答案中重现思路链中的任何有用想法。”

每日经济新闻综合公开资料

相关内容

热门资讯

“医械一哥”迈瑞医疗半年报:净... 今年上半年,虽然受到医疗行业整顿及设备更新政策递延的冲击,但医疗器械“一哥”迈瑞医疗(300760....
从数据中台到数据飞轮:企业升级... 在考虑是否需要升级前,我们需要先来明确数据中台与数据飞轮他们间的关系。 数据中台可以被视作数据飞轮的...
原创 世... 在那遥远的侏罗纪时代,恐龙曾是地球上不可一世的霸主,它们以庞然巨物的姿态,傲然屹立于食物链的顶端。时...
中国电信陕西公司在西安发布全国... 2024年9月19日,中国电信陕西公司在西安举办了以“量子安全算力专网、开启算力自由时代”为主题的全...
小红书内容矩阵怎么构建?自媒体... 标题:《小红书内容矩阵构建指南:自媒体多平台账号管理策略》 在当今信息爆炸的时代,自媒体已成为品牌宣...
HTC发布新款XR一体机,体验... 在近期的发布会上,HTC推出了一款全新的一体式XR头显VIVE FOCUS VISION。相较于其他...
“向新”而行 激光显示行业发展... 今年是激光电视诞生的第十年,值此行业发展承上启下的关键节点,9月19日,2024激光显示技术与产业发...
服务器释放后网站数据还在吗?还... 服务器释放通常指的是服务器租赁合同到期后,服务提供商将服务器资源回收,不再为你提供该服务器的使用权。...
高德首个时空智能城市运营中心落... 9月19日,云栖大会高德“时空智能,AI无处不在”专属论坛上,高德旗下高德云图和杭州深度智联数字科技...
华为云:构建AI原生思维,共赢... 9月19-21日,第九届华为全联接大会(HUAWEI CONNECT 2024)在上海世博展览馆和上...
智驭未来:人工智能与制造业的融... 今天分享的是:智驭未来:人工智能与制造业的融合创新之路 报告共计:73页 《智驭未来:人工智能与制造...
两个亚洲第一“大国重器”!我国... 记者从中国海油获悉:9月19日,我国首个深水油田二次开发项目在珠江口盆地海域投产,亚洲第一深水导管架...
亚马逊发力电商AI,推出第三方... 鞭牛士报道,9月20日消息,据外电报道,谷歌和微软纷纷推出竞争产品,试图确保自己在预计 十年内收入将...
原创 小... 根据最新消息,高通将于10月发布骁龙8Gen4移动平台,那么作为首发机型,小米15系列估计也是10月...
软通动力成功举办“全栈智能,激... 9月19日,软通动力在华为全联接大会2024上举办“全栈智能,激发工业发展新动能”分论坛,汇聚伙伴/...
固态电池技术获突破,上市公司更... 9月20日消息,国内外固态电池市场的“竞技赛”正在持续升温。 日前,由14个欧洲研究机构和合作伙伴组...
原创 美... 最近,黎巴嫩的传呼机爆炸事件不仅在当地造成了严重的人员伤亡和财产损失,也引发了全球对于电子产品安全性...
原创 余... 华为常务董事余承东在9月20日的央视新闻直播间中透露,由于国际制裁的持续影响,当前市面上销售的华为P...
全球最大!国内首艘,成功交付! 9月19日,由中国船舶集团第七〇八研究所研发设计、中交上航局投资、振华重工承建的我国首艘、全球最大1...
海尔生物医疗超低温数智样本管理... 9月20日,山东省第五届“省长杯”工业设计大赛颁奖典礼暨世界工业设计大会开幕式在烟台举行。全球首台海...