谁在“吊打”ChatGPT?

“刷榜”,大模型公开的秘密

就像当年手机厂商流行跑分打榜,现在的大模型厂商,也热衷于冲上各种榜单。

比如OpenCompass,它是Meta官方推荐的开源大模型评测框架,利用分布式技术支持上百个数据集的评测,提供了大模型评测的所有技术细节,同时给大家提供了统一的测试基准,方便各家模型在公平公正的情况下开展对比。

在Llama开源之后,号称全面对标OpenAI、有着清华背景的智谱AI,迅速在国内第一个开源了自己的大模型ChatGLM-6B。

AI行业的“百模大战”已经打了大半年。从上半年的火热,到下半年的渐冷,胜负难分。

GPT成了国内厂商的靶子。几乎每家在发布大模型时,都要把GPT拉出来对比一波,而且他们总能找到一个指标把GPT超越——比如,中文能力。

测评类的榜单太多了。从英文的MMLU,到中文的SuperCLUE,再到借鉴游戏排位赛机制的ChatbotArena,各种大模型榜单让人眼花缭乱。很多时候,榜单上的排名成为厂商对外宣传的工具。

但奇怪的是,用户在体验后发现,号称超越ChatGPT的一些大模型产品,实际表现不尽如人意。各种不同的统计排名口径,更是让人感到迷惑。以至于“第一”太多,榜单都快不够用了。

比如最近,昆仑万维开源“天工”系列大模型,号称多榜超越Llama 2;李开复的零一万物公司发布开源大模型“Yi”,“问鼎”全球多项榜单;vivo发布自研AI“蓝心”大模型,是国内“首家”开源7B大模型的手机厂商。

如此之多的大模型,跑马圈地这半年,大家做得怎么样?我们又该如何评价孰优孰劣?

“刷榜”,大模型公开的秘密

就像当年手机厂商流行跑分打榜,现在的大模型厂商,也热衷于冲上各种榜单。

大模型相关的榜单很多,学术圈、产业界、媒体智库、开源社区,都在今年推出了各种各样的评测榜单。这其中,国内厂商常常引用的是SuperCLUE和C-Eval,这俩都由国人自己推出。

5月6日科大讯飞发布星火认知大模型,三天后SuperCLUE发布榜单,星火排在国产第一;6月13日360集团发布360智脑大模型,六天后SuperCLUE更新榜单,360成了第一。

再后来的7月、8月、9月、10月榜单,拿下国产第一的分别是百度、百川智能、商汤、vivo。“登顶”“夺冠”“国内第一”,出现在这些厂商的宣传中。

有好事者发现,科大讯飞在5月9日“夺冠”时,SuperCLUE官网显示的顾问成员中,排在最前面的那位,头衔是哈工大讯飞联合实验室(HFL)资深级研究员。发榜第二天,这位专家的信息被官网删除了。

当时,SuperCLUE只用了几百道题进行测试,被人质疑不够客观。而在国外,早就有一个叫做SuperGLUE的权威榜单,二者名称相似度极高,让人傻傻分不清楚。后来,SuperCLUE对测评标准和题目数量进行了完善,日渐成为国内知名度较高的测评榜。

大模型测评领域的业内人士赵小跃对“定焦”说,一些测评机构有题库,用接入各家厂商API的方式来测试,但其实测一遍之后,厂商就知道测过什么题,除非下轮测试换题,否则厂商可以用定向爆破的方式得高分。

在他看来,一套题只要测过一家模型,题目就废了,因为模型可以通过API获取题目,题目的可重复性为零。这是模型评测最有挑战的一件事情。

C-Eval榜单刚推出时,业内是认可的。它由上海交通大学、清华大学、爱丁堡大学共同完成,有13948道题目。

但很快,大家就发现,一些原本知名度不高的大模型,突然冲到了榜首,甚至把GPT4踩在脚下使劲摩擦。

在9月初的榜单中,云天励飞大模型总分排第一,360排第八,GPT4居然排第十。再后来,拿过榜单第一的还有度小满金融大模型、作业帮银河大模型,业内公认最强的GPT4被它们无情甩在了身后。

成绩垫底,到底是GPT错了还是榜错了?

显然,榜单有问题,因为它遭遇了“不健康的刷榜”。

C-Eval团队在官网发出声明,承认评测方式有局限性,同时指出了刷榜得高分的一些方法,比如:从GPT-4的预测结果蒸馏,找人工标注然后蒸馏,在网上找到原题加入训练集中微调模型。

这三种方法,前两种可以视为间接作弊,第三种相当于直接作弊。

大模型从业者李健对“定焦”说,间接作弊,就是知道考试大概的类型,然后花较多精力把可能的题目都找出来或叫专业的人造出来,答案也给出来,用这样的数据训练模型。

他指出,业内现在常用的手段是,让GPT-4来“造答案”,然后得到训练数据。

李健分析,直接作弊,就是知道考试题目,然后稍微改改,得到新的很多份题目,之后直接拿来训练模型。

“在清楚榜单任务的情况下,很多类型的任务,很容易刷榜。”他说。

这样得到的分数是没有意义的。“直接作弊基本对提升模型的泛化能力(举一反三)没用,间接作弊有点像做题家,对提升学生真实的素质弊大于利。”

为了让“用户谨慎看待以下榜单”,C-Eval团队不得不将榜单拆分成两个,一个是模型已公开的,一个是未公开的。结果,那些得分高的基本全是未公开的大模型。而这些模型的真实表现,人们是无法体验的。

复旦大学计算机科学技术学院教授邱锡鹏说,C-Eval本身质量还挺高,但被刷榜后导致学术价值不大。现在很多企业去刷榜,但又不公开数据,也不具体说怎么做,这是一种不公平的竞争。

多位大模型从业者对“定焦”说,刷榜在大模型行业很常见。

相关从业人士王冉对“定焦”打了一个比方:“先射完箭再画靶子”。他认为今天的某些测评手段,是有一些大模型公司为了表现自己牛而专门设计的。

而相关从业人士刘迪则认为,有答案或者评分标准,就有人能钻空子。单靠数据集和问题集的评判方式,很难评出大模型在应用层面的好坏。

“一个丹一个炼法,哪个对症还得吃下去看。”他对“定焦”说。

考试拿第一,不是好学生?

大模型评测,作为评估大模型综合实力的一个手段,还有参考价值吗?

赵小跃认为,在核心的通用能力上,比如语言理解、逻辑推理等,学术数据集的榜单测评能反映七八成。这其中最大的问题是,开源的榜单结果跟大家用大语言模型的场景之间有鸿沟

“测评只能反映模型某一部分的能力,大家其实都是从不同的维度盲人摸象,很难知道它的能力边界在哪里。”他说。

对于大语言模型,首先在语言上,分为英文和中文两大语种。国外大模型的训练语料以英文为主,所以英文很强,但中文不一定比国内大模型强。这也是为什么国内很多大模型,都在“超越ChatGPT”之前加一个“中文能力”的定语。

其次在考察科目上,评测数据集通常会设置很多个方面,从百科知识到角色扮演,从上下文对话到闲聊。但这些能力只能单一评价,然后得分加总。

这跟评价一个人很像。任何一道考卷,都只能测试出这个人某方面的能力。即便是全套试卷的成绩,也不等同于这个人的能力。就像ChatGPT的榜单排名不一定能比过国内的一些大模型,但使用体验上就是更好。

王冉认为,如果将大模型比作一个人的大脑,如何评测一个人的大脑好用,如果只给他做题,其实是充满偏见的。“大模型的测评不应该用考试来做,而应该用应用来做。”

人工智能公司开放传神(OpenCSG)创始人、CEO陈冉认为,通用性的评测,看综合得分,没有一个大模型超过GPT4,但是在特定领域,可能有些指标GPT4得分不一定高。

问题在于,有些厂商拿特定领域的得分,去宣传整体超过了GPT4。“这就是以偏概全,我觉得有些厂商在对外宣传时,还是要对生态公司给到正确的指引,具体哪个指标在哪个领域得分高,要说清楚。”他对“定焦”表示。

而一旦测评成绩进入排名赛,有了功利的成分,有些厂商就会有刷榜的动机。“从刷榜的角度,不太能保证中小厂不会把这部分数据拿去训练,这是大家对公开数据集最大的顾虑。”赵小跃说。

综合多位业内人士的观点,目前国内还没有一个特别好的数据集,能综合反映大模型的能力,各方都在探索。

李健在今年做了“CLiB中文大模型能力评测榜单”,为了避免泄题,他尽量参考业界好的方案,自己出题。“主要是业界和学术界的榜单,不太让人满意,公开程度不高,都是各说各话。”

还有一些非商业性质的机构相信,测评榜单最大的意义在于,从模型演化的角度,能够帮助厂商监控模型生产过程中能力的变化,纠正训练模型的方法,有针对性提高模型能力。

比如OpenCompass,它是Meta官方推荐的开源大模型评测框架,利用分布式技术支持上百个数据集的评测,提供了大模型评测的所有技术细节,同时给大家提供了统一的测试基准,方便各家模型在公平公正的情况下开展对比。

开源:先赚吆喝再赚钱

对大模型做出全面评价是困难的。除了打榜的方式,有一些厂商通过开源,获得了巨大的关注。

开源是一种经营策略,需要对自家产品足够自信。相比之下,敢于放开注册让公众体验的闭源大模型,要比那些无法体验的强,开源大模型则又往前迈了一步。

第一个被大范围使用、好评度最高的开源大语言模型,是由Meta在今年2月推出的Llama。当时全球科技公司都盯着OpenAI,试图追赶闭源的ChatGPT。但开源让Meta坐上了牌桌,吸引了大量开发者,一时名声大噪。

国内公司很快跟上,抢抓第一波关注度。智谱AI、智源研究院、百川智能,是动作最快的三家。

在Llama开源之后,号称全面对标OpenAI、有着清华背景的智谱AI,迅速在国内第一个开源了自己的大模型ChatGLM-6B。这个时间点非常早,当时国内厂商的大模型都还没发布,百度文心一言两天后才推出,而王小川的百川智能公司还没成立。

三个月后的6月9日,跟智谱AI有着很深渊源的智源研究院,宣布开源“悟道·天鹰”Aquila。它比智谱AI更进一步——可商用,于是拿下“国内首个开源可商用语言大模型”的头衔。

是否支持商用,是判断模型能力的一个关键指标。GPT 3.5的水平,通常被认为是大模型商用的标准线。不过,智源是一个非营利机构,它更多的用意是为公用发展提供技术支持。

智源主动开源之后,开源大模型的军备竞赛正式打响。

这其中值得一提的是百川智能。作为一家今年4月才成立的初创公司,百川获得的关注度甚至超过很多互联网大厂。

从时间上来看,百川是智源之后第一家开源的创业公司,且第一个宣布可免费商用。它开源不可商用的版本时,比智谱AI早九天;后来开源免费可商用的版本时,又比智谱AI早三天。

时间点很重要。当时Llama1只被允许用作研究,但市场有传闻可商用的Llama 2即将开源。百川不仅抢在Llama 2之前,还卡在智谱AI之前宣布了免费可商用,赢得了巨大的关注度,一周之内下载量破百万。

赵小跃认为,百川在那个时间发布一个开源模型,作为自己的第一枪,是一个很对的决策。“赚了一波吆喝。”

支持商用的Llama 2比百川和智谱AI晚了一周,即便如此,它还是在全球引发巨震。在同等参数规模下,Llama 2能力超过所有的开源大模型,是目前全球公认的开源大模型的代表。

因为Llama的带动,国内厂商踩上了开源热潮的风口。它们急着秀肌肉,争夺大众注意力。但从技术角度,尚不能说明它们就跑在了前面。

有观点认为,开源模型虽多,但大多数都是从Llama派生出来。简单来说,就是用了Llama作为基模型,然后选用其它不同的训练方法微调。因为Llama原生在中文方面相对较弱,给了国产开源大模型宣传的发力点。

6月中旬百川开源第一版Baichuan-7B时,公司只成立刚两个月。当时有人质疑其模型架构跟Llama很相似。“借助已经开源的技术和方案,百川是站在了巨人的肩膀上。”一位大模型创业者评价。

本质上,开源也是一种商业模式。赚完吆喝后,厂商的目的还是赚钱。

陈冉向“定焦”举了个例子,开源就像一些化妆品品牌推出试用装,免费给用户用,但不会透露配方和成分。用户试用完如果觉得好想继续用,就得付费买商业版。另外它可能透露配方,如果有厂商想基于这个配方去创造一个新的产品,就需要交授权费。

百川在9月下旬推出了两款闭源大模型,API接口对外开放,进入ToB领域,开启商业化进程。

“它已经通过开源赚了一波吆喝,接下来一定会推闭源大模型做商业化,它最先进的模型是一定不会开源的。”赵小跃说。

大家都没有护城河?

“百模大战”发展到今天,各家厂商通过各种方式博取关注度,那么谁做到了真正的领先?

赵小跃认为,从主观感受层面来看,国内的大模型,无论是开源还是闭源,本质上没有核心的技术代差。因为无论是模型大小,还是数据质量,大家都没有飞跃式的突破。“在GPT-3.5的指引下,国内厂商只要模型容量达到一定地步,再配合一批高质量数据,大家都不会太差。”

但跟GPT-4相比,技术代差是存在的。“因为闭源,大家不知道GPT-4背后真正的技术方案是什么,如何把这么大的模型用专家结构训练出来,目前大家还都在探索。”

在陈冉看来,国内的大语言模型完全原创的较少,有些是在Transformer架构上做了一个整体调优,本质是在算子上做了调优,而没有本质上的改变。还有一些走开源路线的厂商,更多是在中文方面深入研究。

大家都有自己的大模型,但本质上没有显著的区别,这就是当前国内大模型行业的特点。

某种程度上,这是由行业阶段决定的。国内的互联网大厂、创业公司、高校科研机构,真正开始投入大量人力物力做大模型,也就在今年。行业的技术路线也还在摸索中,没有哪家公司建立起护城河。

相比纯技术实力方面的比拼,算力和数据层面的比拼更能出效果。

“大家更多的精力是花在数据和语料上,谁能花钱获得高质量的语料,同时有足够的算力,谁就能训练出一个相对好一点的模型。”陈冉说。

开源让局面变得更加不可控。去年底ChatGPT亮相后,全球冒出来上百个大模型,但今年Meta开源Llama 2之后,很多模型还没有投入市场就已经过时。就连谷歌的工程师都在内部直言称,谷歌和OpenAI都没有护城河。

大模型更新迭代太快了。“今天你推出一个大模型,花钱打了榜,有很多人用,可能明天就有个新的模型迅速替代掉。”陈冉说。

多位业内人士对“定焦”表示,大模型之间真正显著的区别,会在具体的用户场景或B端的业务中体现。

“现实世界里我们评价某个人是专家,是因为他在特定领域很厉害。大模型也一样,要在领域里建立共识,专业性一定要放到具体的场景里去体现。”王冉说。

核心的通用能力是基础,厂商会根据自己所在的领域,差异化发展。“比如我们跟医院和律所接触,他们其实更关心的是医疗或法律方面的能力。”赵小跃说。

对于互联网巨头而言,需要考量的因素相对更多。

除了要对外“接单”,巨头们已经开始在内部进行大模型的应用端部署。比如腾讯的广告、游戏、社交、会议等业务,接入了混元大模型,百度搜索、文库、百家号等产品早已接入文心大模型,阿里把AI作为各大业务板块的驱动力。

大模型对巨头内部的正面影响究竟有多大,会更难量化评估。

综合来看,国内大模型还处在起跑的混沌阶段,一切都在快速变化中。做出一个大模型的技术壁垒不高,但要做好并真的解决问题,还有很长的路要走。

应受访者要求,赵小跃为化名。

本文来自微信公众号:定焦(ID:dingjiaoone),作者:黎明,编辑:方展博

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年11月9日
下一篇 2023年11月9日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日