一言不合就跑分,国内AI大模型为何沉迷于“刷榜”
三易生活
2023-12-01 20:32:11
0

原标题:一言不合就跑分,国内AI大模型为何沉迷于“刷榜”

“不服跑个分”这句话,相信关注手机圈的朋友一定不会感到陌生。诸如安兔兔、GeekBench等理论性能测试软件,由于能够在一定程度上反映手机的性能,因此备受玩家的关注。同理在PC处理器、显卡上,同样也有相应的跑分软件来衡量它们的性能。

既然“万物皆可跑分”,当下最热的AI大模型也开始玩起了跑分,特别是在“百模大战”打响后,更几乎是天天都有突破、各家的都宣称自己是“跑分第一”。

然而国产AI大模型虽然在跑分上几乎没有输过,可体验方面却从未赢过GPT-4。那么问题就来了,大促节点时各手机厂商总能拿到“销量第一”,靠的是不断增加定语,将市场细分再细分来让人人都有第一拿,可AI大模型领域就不太一样了,毕竟它们的评估基准基本是统一的,其中包括MMLU(用于衡量多任务语言理解能力)、Big-Bench(用于量化和外推LLMs的能力),以及AGIEval(用于评估应对人类级任务的能力)。

目前被国内厂商经常引用的大模型评测榜单是SuperCLUE、CMMLU和C-Eval,其中CMMLU和C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,CMMLU则是MBZUAI、上海交通大学、微软亚洲研究院共同推出,至于SuperCLUE,则是一帮各大高校的AI专业人士攥出来的。

以C-Eval为例,在9月初的榜单上,云天励飞大模型 " 云天书 " 排在第一、360排第八,GPT-4却只能排在第十名。既然标准是可量化的,为什么会出现反直觉的结果呢?大模型跑分榜单之所以会呈现出“群魔乱舞”的景象,其实是目前评价AI大模型性能的方法有局限性,它们是用“做题”的方式来衡量大模型的能力。

众所周知,智能手机的SoC、电脑的CPU和显卡为了保护自身寿命,会在高温的情况下自动降频,反之低温则会使得芯片性能得到更好的发挥。因此将手机放进冰箱、或是为电脑配备更强悍的散热来跑分,通常就会得到一个比正常状态下更高的成绩。更别提针对各类跑分软件进行“专属优化”,也早就成为了各大手机厂商的标准操作。

同理,AI大模型的跑分既然是以做题为核心,自然就会有题库。没错,国内部分大模型在“刷榜”上一个赛一个的原因,就出现在了这里。由于种种原因,目前各大大模型榜单的题库几乎对厂商是单向透明,也就是出现了所谓的“基准泄露”。例如C-Eval榜单在上线之初就有13948道题目,并且由于题库有限,就出现过直接让某些不知名大模型用刷题的方式“通关”的情况。

大家不妨设想一下,如果在考试前机缘巧合看到了试卷和标准答案,突击背题的结果就是考试成绩会大幅度提高。所以将大模型榜单预设的题库加入训练集,这样一来大模型也就变成了拟合基准数据的模型,而且目前的LLM本身就以出色的记忆力著称,背标准答案简直就是小菜一碟。

通过这一方式,小尺寸模型在跑分中也能拥有比大尺寸模型更好的结果,部分大模型取得的高分就是在这样的“微调”下实现。人大高瓴团队在论文《Don't Make Your LLM an Evaluation Benchmark Cheater》中,就直白地指明了此类现象,而且这种投机取巧的做法对于大模型的性能反而是有害的。

高瓴团队的研究人员发现,基准泄漏会导致大模型跑出夸张的成绩,例如1.3B的模型可以在某些任务上超越10倍体量的模型,但副作用就是这些专门为“应试”设计的大模型,在其他正常测试任务上的表现会受到不利影响。毕竟想想也能知道,AI大模型本来应该是“做题家”、却变成了“背题家”,为了获得某榜单的高分,去使用该榜单特定的知识和输出样式,肯定就会误导大模型。

训练集、验证集、测试集的不交叉显然只是理想状态,毕竟现实很骨感,数据泄露问题从根源上就几乎不可避免。随着相关技术的不断进步,当下大模型的基石Transformer结构的记忆和接收能力在不断提升,今年夏季微软研究院General AI的策略就已经实现了让模型接收1亿Tokens、而不会产生无法接受的遗忘。换而言之,未来AI大模型很有可能具有读取整个互联网的能力。

即使抛开技术进步,单纯以当下的技术水平,数据污染其实也难以规避,因为优质数据总归是稀缺、且产能有限的。AI研究团队Epoch在今年年初发表的论文就表明,AI不出5年就会把人类所有的高质量语料用光,而且这一结果是其将人类语言数据增长率,即全体人类未来5年内出版的书籍、撰稿的论文、编写的代码都考虑在内,所预测的结果。

一个优质的数据集如果适合作为评测用途,那么它肯定就同样在预训练上有更好的发挥,例如OpenAI的GPT-4就使用了权威推理评测集GSM8K的数据。所以这就目前大模型评测领域的尴尬之处,大模型对于数据的无止境需求导致了相关评测机构必须比AI大模型厂商跑得更快、更远,可如今评测机构却根本就没能力做到这一点。

至于说为什么某些厂商会在大模型跑分上格外上心,纷纷去操作刷榜呢?其实这一行为背后的逻辑,就与App开发者给自家App的用户量注水一模一样。毕竟App的用户规模是衡量其价值的关键要素,而在当下这个AI大模型的起步阶段,评测榜单的成绩几乎就是唯一一个相对客观的评判标尺,毕竟在大众的认知里跑分高就等于性能强。

当刷榜可能带来强烈的宣传效应,甚至可能会为融资打下基础的情况下,商业利益的加入就必然会驱使AI大模型厂商争先恐后去刷榜了。

相关内容

热门资讯

游戏推荐新道游房卡官网,牛牛房... i7vU而在电池续航方面, iPhone 15 Pro内置3095 mAh电池,而 iPhone 1...
游戏知识!金花房卡怎么购买,金... i6KP其实,苹果之所以能走到今天,就是因为它的技术和创新能力,除了系统和芯片之外,细节方面也在逐渐...
游戏介绍!牛牛房卡游戏平台加盟... lC最近,外网就将苹果公司为用户准备的惊喜曝光了,那就是iPhone 14Pro的全新配色,官方叫法...
游戏推荐金花房卡哪里有的卖,牛... X75MyCJ而且根据最新消息显示苹果今年推出的iPhone15系列手机中其距离传感器将会位于灵动岛...
游戏测评!微信金花房卡到哪里买... sfCiPhone 15 Pro系列相比于之前的机型在内存上增加到了6 GB,因此比之前多了100美...
游戏知识!牛卡批发价格,微信链... HAtRlx使得该机的综合硬件配置可以说是达到了一个新高峰。如果上述曝光的这款realme GT3属...
游戏推荐牛牛房卡哪里有卖的,大... webXYoH除了屏幕和后置相机的变化之外,iPhone16Pro还将会支持手写笔的使用,所以后续用...
游戏介绍!斗牛app批发价,牛... L苹果旗舰手机在全球手机市场,都占据重要的市场份额,所以苹果的热度也就可想而知了。在iPhone 1...
游戏介绍!正规房卡链接在哪购买... tVCs5Zfd1.顶级的A16仿生芯片将运用到iPhone 14系列上。苹果A16芯片采用先进的4...
评测!微信大厅房卡充值,牛牛房... pk能够打败“阉割版”A15芯片的只有“满血版”A15,所以如果你在意性能,那么iPhone13绝对...
游戏推荐牛牛房卡哪家便宜,牛牛... qQs8eNZu不仅影像能力再度突破,还都适配了鸿蒙OS3.1,甚至原本单向的北斗卫星消息如今也升级...
游戏指南!斗牛游戏在哪里找,牛... taR外媒曝光了一组有关iPhone16Pro的渲染设计图,在这组渲染设计图中,iPhone16Pr...
游戏推荐牛牛房卡批发价,游戏购... ipGhgXqiPhone13内置3095mAh电池,支持20W有线+15W无线,别看电池容量比任何...
游戏推荐牛牛房卡哪家便宜,牛牛... jdGRq苹果手机目前发展的情况并不是特别好,一方面是有消息称iOS16可能不会带来特别多的改变,另...
游戏!战神牛牛房卡批发价,正规... 1并且,据悉该机内置了5560mAh电池和150W超级闪充技术,同时最高内置了18G运存。另外,该机...
游戏!斗牛游戏在哪里找,金花房... xH9t最近,外网就将苹果公司为用户准备的惊喜曝光了,那就是iPhone 14Pro的全新配色,官方...
游戏房卡游戏代理要多少钱,正规... oy7Q37r毕竟有热度的消息,大家都愿意去挖。也有一些推特博主,也会爆料苹果的新机。所以新机还在孵...
游戏指南!金花房卡怎么买游戏,... 7sknob置上,据悉该系列中的 iPhone 15 与 iPhone 15 Plus 或将采用一块...
游戏!房卡怎么购买,战神牛牛房... 4H6UnMrA在参数上,据悉该机搭载了5000万像素1英寸大底主摄传感器+2000万像素超广角+1...
游戏知识!微信金花房卡链接怎么... t不过新机还未确定发布时间,现在想要换手机的用户,可以看看这款OPPO Reno9手机,是一款才发布...