SuperCLUE：2024年中文大模型基准测评报告，端侧小模型表现惊艳_资讯

创始人

2025-02-04 19:21:22

0次

自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内外AI机构在过去2年有了实质性的突破。

具体可分为：准备期、跃进期、繁荣期和深化期。

总体趋势上，国内外第一梯队大模型在中文领域的通用能力差距正在扩大。2023年5月至今，国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1的多个版本的迭代升级。

国内模型也经历了波澜壮阔的18个月的迭代周期，从2023年5月的30.12%的差距，缩小至2024年8月的1.29%。但随着o1的发布，差距再次拉大到15.05%。

代表性大模型基准表现趋势：

1、以DeepSeek-V3为代表的国产模型正极为接近GPT-4o-latest

在过去2年中，国产代表性模型持续迭代多个版本，DeepSeek-V3、Doubao-pro、GLM-4-Plus、Qwen2.5在中文任务上已经接近GPT-4o。其中DeepSeek-V3表现出色，在12月测评中有超过Claude3.5Sonnet的表现。

2、o1基于强化学习新范式的推理模型，突破80分拉大国内外顶尖模型差距

在12月SuperCLUE测评中，国内外主要头部大模型在SuperCLUE基准得分集中在60-70分。o1和o1-preview基于强化学习新范式的推理模型成为突破70分瓶颈的重要技术代表，尤其o1正式版突破了80分大关，展现出较大的领先优势。

DeepSeek现象背后：算法... 来源：21世纪经济报道 21世纪经济报道记者孔海丽北京报道从2024年12月发布V3大模型，到最...

原创在... 人类离地外生活越来越近了，但在月球或火星上维持生命需要一种关键的资源：水。来自加州大学圣地亚哥分...

SuperCLUE：2024年... 自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智...

正泰取得热磁式脱扣机构及断路器... 金融界2025年2月3日消息，国家知识产权局信息显示，浙江正泰电器股份有限公司取得一项名为“热磁式脱...

OpenAI ：不起诉 Dee... OpenAI首席执行官山姆·奥尔特曼在日本东京采访时表示， OpenAI无意起诉中国AI初创企业De...

无锡创信航取得多通信综合测试仪... 金融界2025年2月4日消息，国家知识产权局信息显示，无锡创信航电子科技有限公司取得一项名为“一种多...

百亮光电取得防水接线盒专利，提... 金融界2025年2月4日消息，国家知识产权局信息显示，东莞市百亮光电科技有限公司取得一项名为“一种防...

2025年新疆无人机执照培训指... ——聚焦新疆保华润天航空无人机培训中心的专业赋能随着低空经济的加速发展，无人机技术正成为推动新疆产...

原创华... 华为曾经因芯片供应受限而面临挑战，如今在芯片供应恢复后展现出了惊人的复苏力，令人没有想到的是，华为手...

原创英... 2月3日消息，在2024年第四季度的财报电话会议上，英伟达联合首席执行官Michelle Johns...

耳朵里面经常痒，却掏不出东西？... 声明：本文根据权威资料结合个人观点撰写，为原创内容，文末已标注文献等相关信源，在今日头条全网首发72...

中国平台，集中上线据中国基金报2月3日报道，近日，百度智能云、华为云、阿里云、腾讯云、360数字安全、云轴科技等多个平...

DeepSeek，传来两大重磅... 来源：证券时报网 DeepSeek又有大消息传来！今天早上外媒报道称，OpenAI总执行长奥特曼3...

信利光电取得一种穿戴产品显示组... 金融界2025年2月3日消息，国家知识产权局信息显示，信利光电股份有限公司取得一项名为“一种穿戴产品...

百度、腾讯、华为等云厂商宣布接... 2月3日百度智能云宣布，DeepSeek-R1和DeepSeek-V3模型已在百度智能云千帆平台上架...

重庆大渡口惠耳助听器：儿童助听... 小孩助听器一般需要一直佩戴，但也需要循循渐进，对助听器逐渐适应，刚开始佩戴时，需在医生指导下进行使用...

桂林电力电容器取得高电压脉冲电... 金融界2025年2月3日消息，国家知识产权局信息显示，桂林电力电容器有限责任公司取得一项名为“一种高...

研越科技取得防摔工业电脑专利，... 金融界2025年2月3日消息，国家知识产权局信息显示，深圳市研越科技有限公司取得一项名为“一种防摔工...

赛默飞3111二氧化碳培养箱赛默飞3111二氧化碳培养箱（Thermo Scientific CO₂ Incubator 311...

原创 C... 据《财富》杂志官网近日报道称，主要面向人工智能（AI）推理任务应用的晶圆级AI芯片厂商Cerebra...