性能媲美GPT-3.5，AI大模型能塞进手机了？

2024年4月24日 22:15 • 未来科技

“小而美”的模型，Phi-3-mini优于两倍其尺寸模型

据微软官网称，Phi-3模型是目前能力最强、性价比最高的小型语言模型（SLM），其在多种语言、推理、编码和数学基准测试中均展现出超越同等规模甚至更大型模型的能力。

Phi-3遵循安全和高质，Phi-3-mini为多个平台专门优化

Phi-3模型的设计遵循了微软的“负责任AI标准”，包括问责制、透明度、公平性、可靠性与安全性、隐私与安全和包容性。

智东西4月24日报道，4月23日，微软在官网开源了小语言模型（SLM）——Phi-3-mini。这是微软Phi-3系列模型推出的首个模型。

Phi-3-mini作为微软Phi系列的第四代产品，以其38亿参数和3.3T tokens的庞大训练数据量，在语言、推理、编码和数学基准测试中超越了众多数百亿参数规模的模型。

此外，Phi-3-mini有4k和128k tokens两个上下文长度变体，经过预训练和指令调整，可以更好地理解人类的语言、表达、逻辑并执行不同类型的指令。

与大语言模型相比，Phi-3-mini模型操作更为简便。该模型的体积很小，这一特性使其可以在端侧部署和运行。据称，该模型可以作为聊天机器人离线访问，且具有不亚于GPT-3.5的性能。

Phi-3-mini的成本大幅降低。微软生成式AI研究副总裁塞巴斯蒂安·布贝克（Sébastien Bubeck）称，相比于其他相似功能的模型，Phi-3-mini成本可能只有十分之一。

据微软研究团队称，Phi-3-mini小体积、高性能的创新归功于由合成数据组成的数据集。该数据集由大量已过滤的网络数据和其他AI制作的儿童读物中的合成数据组成。

微软计划在未来几周内推出Phi-3系列的另外两个模型，分别是Phi-3-small（7B）和Phi-3-medium（14B）。

“小而美”的模型，Phi-3-mini优于两倍其尺寸模型

Phi-3-mini包含两种上下文长度的规模，分别是4k和128k tokens，其中128k tokens的上下文窗口支持在同类模型是首次实现，且对模型质量的影响微乎其微。此外，该模型经过指令微调，能够以自然语言方式响应和执行多种指令，确保了其即时可用性。

Phi-3模型在小尺寸上具有突破性的性能。根据微软研发团队的测试，Phi-3模型在基准测试中优于相同尺寸和更大尺寸的语言模型。其中，Phi-3-mini的性能优于其尺寸两倍的模型，而Phi-3-small和Phi-3-medium的性能优于更大的模型，包括GPT-3.5 Turbo。

根据性能对照表，Phi-3-mini的两个变体于基准测试的19个对比项中，有17项胜过Gemma-7b模型，18项胜过Mistral-7b模型，11项胜过Llama-3-8B模型。但也有11项次于GPT3.5-Turbo模型，17项次于Claude-3 Sonnet模型。

Phi-3系列基准测试对照表（图源：微软）

此外，微软还在学术报告中称，Phi-3模型的整体性能可以与Mixtral 8x7B和GPT-3.5等模型相媲美。

Phi系列模型的起源于微软研究部门，已经被广泛使用，其中Phi-2下载量超过200万次。从用于Python编码的Phi-1开始，到增强推理和理解的Phi-1.5，再到27亿参数的Phi-2，Phi系列在语言理解方面超越了其25倍参数大小的模型。

微软计划在未来几周内推出Phi-3系列的另外两个模型，分别是Phi-3-small（7B）和Phi-3-medium（14B），旨在为Azure AI和其他模型库提供更灵活的选择。

Phi-3遵循安全和高质，Phi-3-mini为多个平台专门优化

Phi-3模型的设计遵循了微软的“负责任AI标准”，包括问责制、透明度、公平性、可靠性与安全性、隐私与安全和包容性。Phi-3模型经历了严格的安全度量和评估、红队测试、敏感用途审查，并遵循安全指南，以确保这些模型在开发、测试和部署过程中都符合微软的标准和最佳实践。

Phi-3模型在训练过程中采用了高质量的数据，这是基于先前的Phi模型工作的延续。它们还通过了广泛的安全后训练，包括从人类反馈中进行的强化学习（RLHF）、在数十个伤害类别上进行的自动测试和手动红队测试。

此外，Phi-3-mini在Azure AI上配备了一套完整的部署、评估和微调工具链，并通过Ollama平台使开发者能够在本地笔记本电脑上运行。模型还针对ONNX Runtime进行了优化，支持Windows DirectML，并且实现了跨平台支持，包括GPU、CPU和移动硬件。

同时，Phi-3-mini也作为英伟达推理微服务（NVIDIA NIM）提供，具备可广泛部署的标准API接口，并对英伟达GPU进行了专门优化。

Phi-3提供离线推理场景，AI解决方案已落地印度

微软公司通过提供Copilots帮助客户用生成式AI进行业务转型。他们认为，不同任务对质量成本曲线上不同规模模型的需求正日益增长。

小语言模型，如Phi-3，特别适用于以下情况：资源受限的环境，包括设备上和离线推理场景；延迟约束的场景，快速响应时间至关重要；以及成本受限的用例，特别是那些具有较简单任务的用例。

由于尺寸较小，Phi-3模型可以在计算受限的推理环境中使用，特别是Phi-3-mini可以在端侧使用。Phi-3模型的较小尺寸还使得微调或定制变得更加容易和更具成本效益。此外，较低的计算需求使其成本更低，延迟更好。较长的上下文窗口使其能够处理和推理大量的文本内容，如文档、网页、代码等。

微软的一些客户已经开始使用Phi-3构建解决方案。比如农业领域，Phi-3模型为农民提供了更便捷、更经济的解决方案，并帮助他们在没有稳定互联网连接的情况下使用AI技术。

印度一家领先的商业集团ITC正在将Phi-3模型用于Krishi Mitra（一款面向农民的应用程序）内，帮助印度农民通过技术手段获得更好的农业解决方案。据悉，该应用已经覆盖了超过一百万名农民。

结语：大小模型相辅相成，离线AI聊天已成现实

微软的Phi-3模型设计的初衷旨在兼容多种设备。Phi-3与Stability AI的Zephyr、谷歌的Gemini Nano和Anthropic的Claude 3 Haiku等小型模型一样，能够在端侧运行，而无需依赖互联网连接。

尽管云端大模型在性能上全面超越小模型，但它们也存在一些局限性，包括较高的成本、运行速度以及对互联网连接的依赖。相比之下，Phi-3允许用户在没有网络的情况下与虚拟助手进行互动，能够在不上传数据的前提下实现内容总结，解决了AI领域的一部分弊端。

未来这类模型有望与智能手机集成，甚至可能内置于常用家电中，为用户的生活提供个性化建议。我们期待AI变得越来越生活化，也期待小语言模型在未来的进步。

本文来自微信公众号：智东西（ID：zhidxcom），作者：长颈鹿，编辑：香草

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

第一批AI大模型独角兽，创始人已经开始套现了？

Previous 2024年4月24日

AI公司出门问问登陆港交所，认购火热难抵上市破发

Next 2024年4月25日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

性能媲美GPT-3.5，AI大模型能塞进手机了？

相关推荐