推理技术新突破!千问新模型多项性能破全球纪录
创始人
2026-01-27 18:24:32

来源:滚动播报

(来源:科创中国)

1月26日,阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking。该模型通过总参数、强化学习、推理计算的规模扩展,刷新科学知识(GPQA Diamond)、数学推理(IMO-AnswerBench)、代码编程(LiveCodeBench)等多项关键性能基准测试的全球纪录,成为迄今为止最接近国际顶尖模型的国内AI大模型。

据介绍,在关键的模型推理能力提升中,千问新模型采用了一种全新的测试时扩展(Test-time Scaling)机制,推理性能提升的同时还更经济。这一新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。

同时,面向智能体Agent时代,Qwen3-Max-Thinking大幅增强了自主调用工具的原生Agent能力。具体而言,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能的结合工具进行思考的能力。此外,模型幻觉也大为降低,为解决真实复杂任务打下基础。

目前,开发者可在QwenChat上体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API(应用程序接口)服务,普通用户也可通过千问PC端和网页端试用模型。据了解,千问APP也即将接入新模型,所有用户都可体验。

(来源:科技日报 作者:崔 爽)

相关内容

热门资讯

AG发布挑杯定妆照,一诺出道八... 对于喜欢看王者荣耀赛事的网友们来说,这段时间还是挺无聊的,毕竟是休赛期,没有比赛看。不过无聊的日子马...
看起来很复古的消消乐,怎么玩起... 不知从何时起,游戏界掀起了一股复古的浪潮。 比如在当下,16bit的像素小人和街机风的美术风格不再是...
竞速3A大作《地平线 6》来袭... 最好的开放世界+汽车竞速新作《极限竞速:地平线 6》开往日本;特工打枪代名词“007”衍生作《007...
告别流水线快餐玩法,《歧路旅人... 不知道大家有没有发现,如今的生活节奏愈发加快,很多人的心态也随之变得浮躁。本该作为休闲放松港湾的游戏...