斯坦福AI团队抄袭清华系大模型，折射出了什么？

2024年6月4日 12:56 • 未来科技

证据1：llama3-V的模型结构、代码与MiniCPM-Llama3-V。

证据4：面壁团队亲自下场揭发，美国大模型竟能识别中国古文字

另外还有一个坐实抄袭的铁证：MiniCPM-Llama3-V。

除此以外，Llama3-V也显示出了类似MiniCPM-Llama3-V。

此次Llama3-V对MiniCPM-Llama3-V。

去年10月，硅谷VC巨头Vinod Khosla曾在X发文，“忧心忡忡”地称美国的开源大模型都会被中国抄去。万万没想到，8个多月过去，射出的回旋镖最终扎回了自己的心。

这两天，清华系开源大模型被斯坦福AI团队“镜像级套壳”事件在海内外AI社区闹得沸沸扬扬。起因是一个来自斯坦福大学的作者小组发布了一篇名为《Llama 3-V:Matching GPT4-V with a 100x smaller model and 500 dollars》的文章，称他们仅用500美元，就能基于Llama3训练出一个比GPT-4v、Gemini Ultra、Claude Opus更强的SOTA开源多模态模型，而且尺寸还比GPT-4v小100倍。

牛校出身加上超值性价比和惊艳效果，让Llama3-V迅速爆火，当天X帖子浏览量就突破30万，转发超300次，还瞬间冲上HuggingFace Trending Top 5。但很快就有不少细心网友发现了其中“猫腻”：这个出尽风头的Llama 3-V竟然从模型结构、配置文件到代码，都几乎原样照搬了清华大学自然语言处理实验室与面壁智能合作开发的MiniCPM-Llama3-V 2.5。

一时间质疑声四起，越来越多关于Llama 3-V和MiniCPM-Llama3-V 2.5的对比截图和抄袭证据被扒了出来。Llama3-V团队更是在苍白辩解、删评论之后，直接心虚地删除了X官宣推文和HuggingFace、GitHub上的项目链接，对网友要求的回应也是几经删改。

团队内讧二打一：“代码都是他搞的，我俩不知情”

事件持续发酵，终于在6月3日上午，其中的两名作者Aksh Garg和Siddharth Sharma顶不住压力，在X联合署名发表正式回应。他们首先向MiniCPM原作者诚挚道歉，表示原本希望另一位作者Mustafa Aljadery发布原始声明，“但自昨天以来一直无法联系到他”。

Llama3-V虽是三人共同发布，但代码部分都是Mustafa一人编写的。“Sid和我都对多模态模型非常感兴趣，并喜欢他向我们描述的基于Idefics、SigLip和UHD的架构扩展。因此，我们的角色是帮助他在Medium和X上推广该模型。Sid和我查看了最近的论文以验证这项工作的创新性，但我们并不知道也未被告知有关OpenBMB的任何先前工作。”

二人称对自己没有做好尽职调查以验证原创性感到非常抱歉。“我们有责任将我们的工作与以往研究进行对比验证，却未能做到这一点，我们对此负全部责任。今后，@siddrrsh和我将更加谨慎和勤奋，衷心感谢社区提醒。我们已尊重原始工作，删除了所有对Llama-3V的引用，再次表示歉意。”

在Medium的项目文章上也更新了回应：

“非常感谢在评论中指出与之前研究相似之处的各位。我们意识到我们的架构与OpenBMB的《MiniCPM-Llama3-V 2.5：在手机上的GPT-4V级别多模态LLM》非常相似，他们比我们更早实现了这一点。为尊重原作者，我们已经下架了我们的原始模型。

那位被他们指为“抄袭主要责任人”的Mustafa Aljadery尚未发声，X账号也已经设为隐私状态。

不过，两名团队成员的道歉和自证清白并没起到什么正向效果，反而再次被“围攻”了。

网友一针见血地指出：“将罪责都推给一个人是不对的。如果你们压根没有做这项工作，就不该因此获取荣誉。但你们这样做了，所以也必须承担责任。你们本可以只帮助他推广而不要求成为共同作者。”

“所以你们的计划是为一个你们完全没有参与构建的项目平分功劳，很有道理。”

“显然，将所有三个人的盗窃行为都归咎于一个人是不明智的。”

项目发布时明明标注了三人一起构建，现在翻车了就急于做切割，这种能同甘不能共苦的做法令网友不齿。

“我完全明白Mustafa是因为抄袭和撒谎而被责备，但你们想要从他的工作中获得荣誉而完全没有参与编写代码，这让我感觉不太对……我知道他们的角色是在社交媒体上推广，但两个学生推广这些模型并声称他们是项目的一部分，这难道不奇怪吗？”

对此硅星人也已联系了该项目作者，以寻求进一步解释，目前团队尚未就此回应。我们会在收到回复后向大家更新。

事件原委及抄袭实锤回顾

若简单复盘这起事件，就要回溯到5月29日斯坦福团队发布的官宣原文。文中这样描述Llama 3-V的诞生缘起：

“Llama3横空出世，在几乎所有基准测试中表现优于GPT 3.5，并在几个方面超越了GPT4。然后GPT 4o推出，以其多模态的精妙重新夺回王座。今天，我们发布了一款改变现状的产品：Llama3-V。”

尽管通篇全文故意一字未提MiniCPM-Llama3-V 2.5，仍被火眼金睛的HuggingFace用户们发现其涉嫌“套壳”。对此llama-3V给出了一个自相矛盾的解释，表示他们只是使用了MiniCPM-Llama3-V 2.5的tokenizer，并宣称自己在MiniCPM发布前就开始了这项工作——如此“未卜先知”，实在令人感到匪夷所思。

网友继续发力，6月2日起在Github Issue和X平台发布多项证据。

证据1：llama3-V的模型结构、代码与MiniCPM-Llama3-V 2.5几乎是“双胞胎”的程度。

前者只是进行了一些重新格式化，并把图像切片、分词器、重采样器等变量重命名，而整体重合度令人震惊。

Llama3-V作者提到了引用LLaVA-UHD架构，并列出关于ViT和LLM的选择差异。却刻意隐瞒Llama3-V在很多具体实现上与MiniCPM-Llama3-V 2.5完全相同，但与LLaVA-UHD大不相同。甚至还使用了包括MiniCPM-Llama3-V 2.5新定义的特殊符号在内的，完全相同的分词器。

证据2：Llama3-V技术博客错漏频出，项目作者不理解“自己的代码”。

Llama3-V的技术博客和代码也出卖了他们抄袭的事实。例如感知器重采样器（Perceiver resampler）是单层cross-attention，而不是双层self-attention。

更尴尬的是，视觉特征提取其实不需要Sigmoid激活。但下图所示的Llama3-V技术博客里作者理解是错的，代码却是正确的。表明作者压根不理解“自己的代码”，唯一说得通的解释就是“拿来党”了。

证据3：Llama 3-V=MiniCPM-Llama3-V 2.5+高斯噪声

根据网友反馈，当运行Llama3-V时，作者提供的代码无法与HuggingFace上的checkpoint配合使用。但若把Llama3-V模型权重中的变量名改为MiniCPM-Llama3-V 2.5使用的名称后，模型反而能成功运行MiniCPM-V。

这….

另外，网友尝试在MiniCPM-Llama3-V 2.5的checkpoint上添加一个简单的高斯噪声，结果不出意外地，意外得到了一个行为与Llama3-V极为相似的模型。这不就证明Llama 3-V其实相当于MiniCPM的加噪声版本？

证据4：面壁团队亲自下场揭发，美国大模型竟能识别中国古文字

另外还有一个坐实抄袭的铁证：MiniCPM-Llama3-V 2.5的一个实验性功能是能够识别清华简，这是一种非常特殊且罕见的中国战国时期（公元前475年至公元前221年）写在竹简上的古文字。

这些训练数据的采集和标注均由清华NLP实验室和面壁智能团队完成，相关数据属于内部所有，尚未对外公开。MiniCPM-Llama3-V 2.5在经过专有数据训练后，才能初步识别清华简的文字，这也相当于MiniCPM-V的“胎记”特征。

然而令人惊讶的是，不可能获得专有数据训练的Llama3-V，隔空就具备了相同的能力。

甚至连犯的错都跟MiniCPM一毛一样：

这绝不可能是巧合。面壁团队在1000张竹简图像上测试了几种基于Llama3的视觉-语言模型，并将每对模型的预测精确匹配进行比较，结果显示，正常情况下每对模型间的重叠为零。而Llama3-V和MiniCPM-Llama3-V 2.5之间的重叠竟达到惊人的87%。

除此以外，Llama3-V也显示出了类似MiniCPM-Llama3-V 2.5的强大OCR能力，甚至包括中文。很难想象仅用500美元成本便可实现如此复杂的功能。

舆情热度继续走高，从X、HuggingFace、Reddit，一路延烧到微博、知乎。越来越多的中外网友出来围观和严厉指责，Llama3-V也迫于此删除了社区所有相关的项目链接。

面壁智能CEO李大海在朋友圈发声，表示对这件事深表遗憾：“技术创新不易，每一项工作都是团队夜以继日的奋斗结果”。“希望团队的工作被更多人关注与认可，但不是以这种方式”。

联合创始人刘知远在知乎社区发表了一篇真诚恳切又意味深远的正式回应。文中提到Llama3-V团队未能遵守开源协议对他人成果的尊重和致敬，严重破坏了开源共享的基石。但他也提到，三位作者还很年轻，有两位仅是斯坦福大学的本科生，未来还有很长的路要走，“如果知错能改，善莫大焉”。

但X网友就没有这么宽容了，直言：“现在无法轻易相信任何事情，GitHub发布、简历，所有事情都能造假和抄袭。”

还有用户更狠，在GitHub留言建议，直接联系斯坦福教授举报学术不端。

Llama3-V作者背景深挖：集齐斯坦福、牛津、SpaceX、AWS亮眼元素

细看这次成为众矢之的的三位年轻作者，确实身披许多光环：

Siddharth Sharma是斯坦福大学CS本科生，专注于机器学习和分布式系统。曾在牛津大学作为访问学生学习机器学习理论、强化学习和对齐技术。还在AWS的Deep Engine Science团队和Foundry技术团队工作过，目前在Lux Capital从事AI和数据相关工作。曾经的OpenAI大将、开发者关系主管Logan Kilpatrick也关注了他的推特。

大模型开发等项目经验很丰富，发布过涉及开源AI、数据密集型系统、量子计算、强化学习、计算机视觉等多篇文章。

Aksh Garg是Medium上文章的发布者。他也是斯坦福的CS专业本科生，预计今年6月毕业，GPA为4.1/4.0。背景更是包括了SpaceX的Starlink软件工程实习生、USC Keck医学院机器学习研究员、Stanford KhatriLab本科研究员、Caltech TensorLab强化学习研究实习生和Viridium Hydrogen创始团队成员及机器学习工程师等。

被他们俩切割的Mustafa Aljadery是一位经验丰富的软件工程师，目前在Beehiiv工作，也是团队中唯一的全职在职人员。

Mustafa本科和硕士均毕业于南加州大学，主攻深度学习和数学。此外，他还曾在Citadel Securities担任量化夏季实习生，并且是Disperse的创始人兼软件工程师，在南加州大学进行Transformer注意力层和注意力提取的研究，并在麻省理工学院从事过并行计算的研究工作。

此次Llama3-V对MiniCPM-Llama3-V 2.5的套壳事件引发巨大关注，一部分原因也是由于三名成员其实都具备出色的学术和技术研发背景，在AI模型领域也深耕已久，本不该把如此“赤裸裸”的照抄描述为自身成果，违背了社区公认的开源精神。

而另一方面，也有不少社区开发者注意到一个细节。

在这场抄袭风波中，三人敢于明目张胆对MiniCPM抄袭，也有一个判断：中国的开源模型一方面十分强大，另一方面在社区里关注度不高。

如此强大的开源模型，发布后，火起来的却是一个套壳的海外版。而且，直到事情闹大，许多看起来本应该对开源社区里最棒的作品持续关注的研究者，也才知道MiniCPM的存在。

就像在作者那个回复中所说，他们“看了很多最近的论文以验证这项工作的创新性，但却并不知道也未被告知有关OpenBMB的任何先前工作”。

有一个DeepMind的工程师就指出，这件事里有意思的地方是，相比造假的Llama3-V，MiniCPM是真实存在的能达到如此强大能力的模型。但是它获得的关注是如此之少，同样的研究结果就因为不是来自一些知名的常青藤大学，就无法流行起来。

“我们都显得太难堪了。”

本文来自微信公众号：硅星人Pro （ID：gh_c0bb185caa8d），作者：张潇雪

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

增员近8000！闷声发财的唯品会，为何焦虑难掩？

Previous 2024年6月4日 12:20

618大战：女装激战最凶，美妆仍是大牌的天下

Next 2024年6月4日 13:53

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

斯坦福AI团队抄袭清华系大模型，折射出了什么？

相关推荐

Share To :