SuperCLUE:2024年中文大模型基准测评报告,端侧小模型表现惊艳
创始人
2025-02-04 19:21:22

自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年有了实质性的突破。

具体可分为:准备期、跃进期、繁荣期和深化期。

总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距正在扩大。2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1的多个版本的迭代升级。

国内模型也经历了波澜壮阔的18个月的迭代周期,从2023年5月的30.12%的差距,缩小至2024年8月的1.29%。但随着o1的发布,差距再次拉大到15.05%。

代表性大模型基准表现趋势:

1、以DeepSeek-V3为代表的国产模型正极为接近GPT-4o-latest

在过去2年中,国产代表性模型持续迭代多个版本,DeepSeek-V3、Doubao-pro、GLM-4-Plus、Qwen2.5在中文任务上已经接近GPT-4o。其中DeepSeek-V3表现出色,在12月测评中有超过Claude3.5Sonnet的表现。

2、o1基于强化学习新范式的推理模型,突破80分拉大国内外顶尖模型差距

在12月SuperCLUE测评中,国内外主要头部大模型在SuperCLUE基准得分集中在60-70分。o1和o1-preview基于强化学习新范式的推理模型成为突破70分瓶颈的重要技术代表,尤其o1正式版突破了80分大关,展现出较大的领先优势。

相关内容

热门资讯

《王者荣耀世界》移动端正式上线... 4月17日,《王者荣耀世界》正式登陆iOS、Android等平台。根据三方平台统计显示,从4月15日...
神泣纷争 4 月 18 公测|... 神泣纷争手游正式定档于2026年4月18日公测首服,是由官方正版授权,搬砖测评公众号联合合作宣传的一...
王者荣耀世界角色PVE强度排行... 这篇文章我们来聊一下王者荣耀世界开服角色的T度排行,仅考虑pve大世界强度,不考虑pvp的强度。 ...
原创 风... 在《风之国》里,新加入的日常玩法“魔域讨伐”逐渐成了中后期提升战力的重要来源,这一内容在角色达到64...
西游回合制新作震撼上线!快速上... 你是否还在为寻找一款耐玩又刺激的西游题材回合制游戏而烦恼?是否厌倦了繁琐的升级过程和复杂的系统设定?...