OpenAI公布最新具思考能力的旗舰模型o3
创始人
2024-12-24 11:21:10

在12消息连发的最后一天,OpenAI首席执行官Sam Altman亲自宣布具思考能力的旗舰模型进入最新版o3时代。

令人意外的是,9月问世的关联思考模型o1,并没有o2版。The Information报道,这可能是因为若叫o2会和英国电信企业o2撞名,迫使OpenAI直接升级为o3。

OpenAI同时宣布o3 mini。它是由o3蒸馏而成的小模型,并为程序撰写优化速度。OpenAI计划2025年初陆续部署o3系列模型,包括开放公测。o3 mini将是第一个问世的o3模型,预计2025年初公开使用。目前该公司已开始OpenAI o3的安全测试及红队演练,OpenAI邀请安全研究人员申请加入早期版测试。

OpenAI展示,o3在包括程序撰写、数学解题,以及科学理解等基准测试都比前代更进一步。其中在ARC AGI测试中,o3系列在低运算量任务的测试得分达75.7%,高运算量任务得分达87.5%,都超越o1系列。

OpenAI说明,o3技术提升的关键之一是deliberative alignment(审慎遵循)。这是一种以人为撰写的文本及可解读的安全规格教导o系列LLM,并训练他们在回答用户查询前先清楚理解这些规格。研究人员的新训练方法让o系列模型使用思维链(chain-of-thought,CoT)推理方法来思考用户提示、从OpenAI内部政策识别出相关文本,再草拟出更安全的回应。这新训练方法让模型得以准确遵循OpenAI的安全策略而无需人类标签过的CoT或答案。

OpenAI说前一代的o1在此类训练下,在多项内、外部安全基准测试中已经大幅超越GPT-4o和其他尖端LLM,且在多种数据集也展现高性能。OpenAI相信这种新方法,可同时用于提升LLM能力以及AI安全性。

为了迎战新的OpenAI o3模型,Google已在本周稍早公布Gemini 2.0 Flash Thinking实验模型,供开发人员测试。新模型将能混合图文、产生多种情感的声音,还能使用搜索及程序,可更完美控制代理人。

相关内容

热门资讯

原创 拼... 放眼整个2026年,拼多多的核心玩法依然离不开:强付费和自然流两种玩法。也就是,大家做拼多多,如果不...
顶流主播集体扎根,天下贰经典版... 《天下贰・经典版》公测近半年,服务器依旧火爆,金价稳如老狗,新服世外桃源刚开时上号更是人满为患,刚开...
原创 被... 大家好我是指尖,一般来说,一款皮肤的优秀是有侧重的角度的,要么建模做的好,要么创意不错,也有可能是特...
原创 国... 新英雄六耳已经上线几天的时间了,现在大家如果再来评价这个英雄,你觉得是强,还是弱呢? 我的评价依然是...
继“大司马官宣办第二届PUBG... 前言:现在互联网大环境不好,很多游戏主播都叫苦不迭,因为相较于几年前来说,现在直播人气又低,挣钱又少...