SuperCLUE:2024年中文大模型基准测评报告,端侧小模型表现惊艳
创始人
2025-02-04 19:21:22

自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年有了实质性的突破。

具体可分为:准备期、跃进期、繁荣期和深化期。

总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距正在扩大。2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1的多个版本的迭代升级。

国内模型也经历了波澜壮阔的18个月的迭代周期,从2023年5月的30.12%的差距,缩小至2024年8月的1.29%。但随着o1的发布,差距再次拉大到15.05%。

代表性大模型基准表现趋势:

1、以DeepSeek-V3为代表的国产模型正极为接近GPT-4o-latest

在过去2年中,国产代表性模型持续迭代多个版本,DeepSeek-V3、Doubao-pro、GLM-4-Plus、Qwen2.5在中文任务上已经接近GPT-4o。其中DeepSeek-V3表现出色,在12月测评中有超过Claude3.5Sonnet的表现。

2、o1基于强化学习新范式的推理模型,突破80分拉大国内外顶尖模型差距

在12月SuperCLUE测评中,国内外主要头部大模型在SuperCLUE基准得分集中在60-70分。o1和o1-preview基于强化学习新范式的推理模型成为突破70分瓶颈的重要技术代表,尤其o1正式版突破了80分大关,展现出较大的领先优势。

相关内容

热门资讯

梦幻西游冯总讲述第一谛听交易细... 梦幻西游珍宝阁“第一谛听”流出团队一事引发广泛关注,部分粉丝质疑团队无人接手。随着讨论不断升温,团队...
警惕!个别致癌物超标!这种一次... 近些年,可降解一次性杯子由于环保、洁净的理念,呈现出快速增长的消费趋势。但有消费者反映,市场上一次性...
隆泰迪取得高速激光熔覆设备专利... 国家知识产权局信息显示,沧州隆泰迪管道科技有限公司取得一项名为“一种高速激光熔覆设备”的专利,授权公...
梦幻西游全服第一16技能谛听成... 自梦幻西游大佬高总宣布暂别赛场后,其手下的两只神兽去向便备受关注。据悉,高总那只全服独一无二的16技...
《失落星船:马拉松》试玩报告:... “欢迎来到天仓五Ⅳ。” 时隔大半年,我再次见到了《失落星船:马拉松》。 我在前几日有幸前往线下,参加...