SuperCLUE:2024年中文大模型基准测评报告,端侧小模型表现惊艳
创始人
2025-02-04 19:21:22

自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年有了实质性的突破。

具体可分为:准备期、跃进期、繁荣期和深化期。

总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距正在扩大。2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1的多个版本的迭代升级。

国内模型也经历了波澜壮阔的18个月的迭代周期,从2023年5月的30.12%的差距,缩小至2024年8月的1.29%。但随着o1的发布,差距再次拉大到15.05%。

代表性大模型基准表现趋势:

1、以DeepSeek-V3为代表的国产模型正极为接近GPT-4o-latest

在过去2年中,国产代表性模型持续迭代多个版本,DeepSeek-V3、Doubao-pro、GLM-4-Plus、Qwen2.5在中文任务上已经接近GPT-4o。其中DeepSeek-V3表现出色,在12月测评中有超过Claude3.5Sonnet的表现。

2、o1基于强化学习新范式的推理模型,突破80分拉大国内外顶尖模型差距

在12月SuperCLUE测评中,国内外主要头部大模型在SuperCLUE基准得分集中在60-70分。o1和o1-preview基于强化学习新范式的推理模型成为突破70分瓶颈的重要技术代表,尤其o1正式版突破了80分大关,展现出较大的领先优势。

相关内容

热门资讯

山东黄金集团深井开采实验室一项... 来源:市场资讯 (来源:山东黄金集团) 近日,从国家知识产权局获悉,山东黄金集团深井开采实验室参与研...
水田插秧之后 马云低调现身麻省... 快科技6月25日消息, 近日有网友曝出照片,阿里巴巴创始人马云在杭州参加插秧活动后,又低调前往美国麻...
端网业协同创新 中国移动河南公... 【大河财立方消息】6月25日,在2026上海世界移动通信大会期间,面向端网业协同的5G-A体验经营产...
字跳申请界面交互方法专利,提高... 国家知识产权局信息显示,北京字跳网络技术有限公司申请一项名为“界面交互的方法、装置、设备和存储介质”...
2026年准大学生万元预算OP... OPPO数码全家桶 随着2026年高考结束,准大学生们即将迎来人生的新篇章。一份能够陪伴学习、娱乐与...