微软秒删的开源大模型，性能如何？

2024年4月22日 16:43 • 未来科技

WizardLM-2“开箱”评测

WizardLM。

WizardLM-2。//www.teiss.co.uk/news/microsoft-pulls-wizardlm-2-ai-model-due-to-missed-toxicity-testing-13873

本文来自微信公众号：AI前线（ID：ai-front），作者：冬梅、核子可乐

。

上周五，Meta 宣布推出了开源大模型 Llama 3，以其卓越性能引发热议。而在 Llama 3 发布之前，微软也悄悄发布了最新的开源模型 WizardLM-2。

颇具戏剧性的是，这款模型在发布仅几个小时后，就被微软下架了，理由是在发布之前忘了进行“毒性测试”。

据悉，这款大模型发布于上周一，提供三个版本：8x22B、70B 和 7B，每个版本都旨在满足不同的规模和要求。8x22B 模型是旗舰模型，拥有 1410 亿个参数，使其成为开源社区中最有效的模型之一。

微软这次发完模型又删除的行为让很多网友表示困惑，因此微软开发人员在 X 上发布了一份声明解释了下架模型的原因。开发人员遗憾地承认了他们在模型发布过程中由于工作疏忽忘记了进行毒性测试。为了向社区保证迅速采取行动，他们承诺在重新发布模型之前立即进行必要的测试。

还有外界消息称，WizardLM-2 背后的研发团队总部位于北京。他们澄清表示：“删除该模型是由于忘记测试，而不是故意试图绕过审查”。

我们深感抱歉。

距离我们发布模型已经过去一段时间，所以现在的我们对于新的发布流程有点生疏，不小心遗漏了模型发布过程中的重要一环——有毒内容测试。

目前，我们正在快速补全测试工作……

大语言模型的毒性，是指其创作有害或不当内容的能力。如果在大模型中发现“有毒”内容，不单会影响技术方案的性能表现，更可能在全球各地纷纷对 AI 技术抱谨慎、甚至负面态度的背景下引发轩然大波。相关错误输出可能在互联网上疯狂自传播，甚至招来政府当局的调查。没有哪家公司愿意看到这样灾难性的经营事故。

因此，该模型的所有文件均被从 GitHub 和 Hugging Face 上移除，访问相关页面现在会显示 404 错误。

这款大模型是在 Apache 2.0 协议下发布的，在 repo 被移除之前，许多人已经下载了模型权重。但有细心的 Hacker News 用户还是将其发布地址备份保存了下来：

甚至在下架之前，部分用户已经在其他基准测试中对该模型进行了评估。那么，这款大模型具有哪些功能？与其他大模型相比性能如何？

WizardLM-2“开箱”评测

WizardLM 是一套基于指令的模型，构建于 Meta 的 Llama 基础之上，属于研究人员使用生成的指令数据对 Llama 微调得到的产物。

值得注意的是，WizardLM-2 基于混合专家（MoE）架构开发，利用完全由人工智能驱动的综合训练系统，增强其处理复杂、多语言对话和执行高级推理的能力。该系统支持模型在各个领域（包括写作、编码、数学等）提供精致且与上下文相关的响应的能力。

该模型的第二个版本 WizardLM-2 是在 Mistral AI 的 Mixtral 8x22B 模型基础之上构建而成，并利用合成数据进行了微调。该模型家族共包含三大领先型号：WizardLM-2 8x22B、70B 与 7B。与各领先的专有大语言模型相比，这些模型表现出极具竞争力的性能水平。

WizardLM-2 8x22B 是其中最先进的模型，仅略微落后于 GPT-4-1106-preview。70B 在相同体量下达到了顶级性能，而 7B 版本则速度最快，甚至拥有与参数规模 10 倍于它的领先模型相当的性能表现。

该模型利用 AI 模型生成的合成数据训练而成。微软公司在 X 上发帖指出：

随着天然存在的人类数据逐步被大语言模型训练用尽，我们坚信：AI 精心创造的数据与 AI 分步监督的模型将是通往更强 AI 成果的唯一途径。因此，我们构建了一套完全由 AI 驱动的合成训练系统以增强 WizardLM-2。

WizardLM 2 的训练方式（来源：模型启动页面，现已删除）

在 MT-Bench 框架等基准评估中，WizardLM-2 展现出具有竞争力的性能，甚至可以与最先进的专有模型相媲美。它在现实场景中的应用较为广泛，从增强对话式人工智能到支持业务环境中的复杂决策流程。

将 WizardLM2 基准与 GPT-4–1106-preview、Command R Plus、Mistral Large、Qwen 1.5、Straling LM 7B 进行比较。（来源：模型启动页面，现已删除）

在 MT-Bench 中将 WizardLM-2 与 GPT-4-Turbo 和 Claude-3 等最先进的专有大模型相比，WizardLM-2 8x22B 仍然具备极富竞争力的性能。同时，7B 与 70B 也均成为同等参数规模之下性能最强的大语言模型。

最近几年，微软的步子迈得太大了

Hugging Face 及其首席执行官 Clément Delangue 对删除表示失望，并强调了 WizardLM 的开源模型对其平台的重大影响。他们正在积极寻求与 Microsoft 的解决方案，以满足社区需求。

随着故事的展开，人们的注意力转向了微软对负责任的 AI 实践的承诺。尽管该公司拒绝直接置评，但更新后的负责任人工智能标准一般要求的发布强调了其对道德人工智能开发的奉献精神，强调需要减少人工智能输出中的偏见和差异。

实际上，当前几年还没有在 AI 领域展现出强大的统治力时，微软时常因产品的发布令人失望，甚至被贴上创新停滞和顶尖人才流失的标签。

快进到 2024 年，微软已然成为了全世界最有价值的科技巨头之一。在首席执行官萨蒂亚·纳德拉的领导下，微软股价在 10 年内飙升了 1000% 以上。一月份，该公司的市值达到 3 万亿美元，超过了法国的 GDP 总和。

能够让微软卷土重来的核心是人工智能。微软在 Azure 云计算平台、Office 生产力套件和 Bing 搜索引擎中嵌入了人工智能。而这一转变的关键事件是微软投资了 OpenAI，并迅速借助先进的人工智能技术成为了生成式 AI 时代的先行者。

微软与 OpenAI 的合作始于 2017 年，当初这家备受瞩目的初创公司在云计算上花费了大约 790 万美元——占其职能支出的四分之一，这让两者有了初步的接触。

到 2019 年，微软已经成为 AI 实验室的“独家”云计算提供商。在向这家初创公司投资 10 亿美元后，微软成为 OpenAI 商业化的首选合作伙伴。

微软很快将 OpenAI 大语言模型（LLM）集成到 Azure 云服务中。客户使用该软件实现各种应用程序功能，从聊天机器人和内容生成到翻译和个性化营销。

该服务增长迅速。今年第二季度，微软报告称，Azure OpenAI 的用户数量较前 12 个月增长了 50%。纳德拉表示，目前已有超过 53000 名客户使用该服务，其中包括“一半以上”的财富 500 强企业。可以说，OpenAI 在微软的商业帝国复兴中发挥了关键作用。

但借助 OpenAI 这一外力重新崛起的老牌巨头想要依靠自身实力继续保持领先，并且能在激烈的竞争中始终处于有利位置，却是件很难的事情。

参考链接：

https://blog.stackademic.com/beyond-gpt-4-exploring-microsofts-wizardlm-2-2863e432f291

https://favtutor.com/articles/wizardlm-2-benchmarks/

https://www.teiss.co.uk/news/microsoft-pulls-wizardlm-2-ai-model-due-to-missed-toxicity-testing-13873

本文来自微信公众号：AI前线（ID：ai-front），作者：冬梅、核子可乐

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

单片播放量破3亿，谁在制造海外爆款短剧？

Previous 2024年4月22日 16:18

“三黑让杰”完结，特步被“冤死”？

Next 2024年4月22日 16:48

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

微软秒删的开源大模型，性能如何？

相关推荐