挑战OpenAI,微软自研5000亿参数大模型曝光

显然,微软秘密筹备大模型的计划,是为了能够开发出一款全新LLM,能够与OpenAI、谷歌、Anthropic顶尖模型竞争。

种种迹象表明,微软与OpenAI之间的合作,只会更加牢固。

解密“图灵”模型

除了MAI、Phi系列模型,代号“Turing”是微软在2017年在内部开启的计划,旨在打造一款大模型,并应用到所有产品线中。

不需要OpenAI,微软或许也会成为AI领头羊!

外媒Information爆料称,微软内部正在开发自家首款5000亿参数的大模型MAl-1。

这恰好是,纳德拉带领团队证明自己的时候到了。

在向OpenAI投资100多亿美元之后,微软才获得了GPT-3.5/GPT-4先进模型的使用权,但终究不是长久之计。

甚至,此前有传言称,微软已经沦落为OpenAI的一个IT部门。

在过去的一年,每个人熟知的,微软在LLM方面的研究,主要集中在小体量Phi的更新,比如Phi-3的开源。

而在大模型的专攻上,除了图灵系列,微软内部还未透露半点风声。

就在今天,微软首席技术官Kevin Scott证实,MAI大模型确实正在开发中。

显然,微软秘密筹备大模型的计划,是为了能够开发出一款全新LLM,能够与OpenAI、谷歌、Anthropic顶尖模型竞争。

毕竟,纳德拉曾说过,“如果OpenAI明天消失了,也无关紧要”

“我们有的是人才、有的是算力、有的是数据,我们什么都不缺。我们在他们之下,在他们之上,在他们周围”。

看来,微软的底气,就是自己。

自研5000亿MAI-1大模型

据介绍,MAI-1大模型由前谷歌DeepMind负责人Mustafa Suleyman,负责监督。

值得一提的是,Suleyman在加入微软之前,还是AI初创Inflection AI创始人兼CEO。

该公司创办于2022年,一年的时间,他带领团队推出了大模型Inflection(目前已更新到了2.5版本),以及日活破百万的高情商AI助手Pi。

不过因为无法找到正确的商业模式,Suleyman和另一位联创,以及大部分员工,在3月份离职了,共同加入微软。

也就是说,Suleyman和团队负责这个新项目MAI-1,会为此带来更多的前沿大模型的经验。

还是要提一句,MAI-1模型是微软自研发的,并非从Inflection模型继承而来。

据两位微软员工称,“MAI-1与Inflection之前发布的模型不同”。不过,训练过程可能会用到其训练数据和技术。

拥有5000亿参数,MAI-1的参数规模将远远超出微软以往训练的任何小规模开源模型。

这也意味着,它将需要更多的算力、数据,训练成本也是高昂的。

为了训练这款新模型,微软已经预留了一大批配备英伟达GPU的服务器,并一直在编制训练数据以优化模型。

其中,包括来自GPT-4生成的文本,以及外部来源(互联网公共数据)的各种数据集。

大小模型,我都要

相比之下,GPT-4曾被曝出有1.8万亿参数,Meta、Mistral等AI公司发布较小开源模型,则有700亿参数。

当然,微软采取的是多管齐下的策略,即大小模型一起研发。

其中,最经典的便是Phi-3了——一个能够塞进手机的小模型,而且最小尺寸3.8B性能碾压GPT-3.5。

Phi-3 mini在量化到4bit的情况下,仅占用大约1.8GB的内存,用iPhone 14每秒可生成12个token。

在网友抛出“应该用更低成本训练AI,不是更好吗”的问题后,Kevin Scott回复:

这并不是一个非此即彼的关系。在许多AI应用中,我们结合使用大型前沿模型和更小、更有针对性的模型。我们做了大量工作,确保SLM在设备上和云中都能很好地运作。我们在训练SLM方面积累了大量经验,甚至还将其中一些工作开源,供他人研究和使用。我认为,在可预见的未来,这种大与小的结合还将继续下去。

这表明,微软既要开发成本低廉、可集成到应用中,并能在移动设备上运行的SLM,也要开发更大、更先进的AI模型。

目前,微软自称是一家“Copilot公司”。得到AI加持的Copilot聊天机器人,可以完成撰写电子邮件、快速总结文件等任务。

而未来,下一步的机会在哪?

大小模型兼顾,正体现了充满创新活力的微软,更愿意探索AI的新路径。

不给OpenAI当“IT”了?

话又说回来,自研MAI-1,并不意味着微软将会抛弃OpenAI。

首席技术官Kevin Scott在今早的帖子中,首先肯定了微软与OpenAI合作五年的坚固“友谊”。

我们一直在为合作伙伴OpenAI建造大型超算,来训练前沿的AI模型。然后,两家都会将模型,应用到自家的产品和服务中,让更多的人受益。

而且,每一代新的超算都将比上一代,更加强大,因此OpenAI训练出的每个前沿模型,都要比上一个更加先进。

我们将继续沿着这条路走下去——不断构建更强大的超算,让OpenAI能够训练出引领整个行业的模型。我们的合作将会产生越来越大的影响力。

前段时间,外媒曝出了,微软和OpenAI联手打造AI超算“星际之门”,将斥资高达1150亿美元。

据称,最快将在2028年推出超算,并在2030年之前进一步扩展。

包括此前,微软工程师向创业者Kyle Corbitt爆料称,微软正在紧锣密鼓地增加10万个H100,以供OpenAI训练GPT-6。

种种迹象表明,微软与OpenAI之间的合作,只会更加牢固。

此外,Scott还表示,“除了与OpenAI的合作,微软多年来一直都在让MSR和各产品团队开发AI模型”。

AI模型几乎深入到了,微软的所有产品、服务和运营过程中。团队们有时也需要进行定制化工作,不论是从零开始训练模型,还是对现有模型进行微调。

未来,还会有更多类似的这样的情况。

这些模型中,一些被命名为Turing、MAI等,还有的命名为Phi,我们并将其开源。

虽然我的表达可能没有那么引人注目,但这是现实。对于我们这些极客来说,鉴于这一切在实践中的复杂性,这是一个非常令人兴奋的现实。

解密“图灵”模型

除了MAI、Phi系列模型,代号“Turing”是微软在2017年在内部开启的计划,旨在打造一款大模型,并应用到所有产品线中。

经过3年研发,他们在2020年首次发布170亿参数的T-NLG模型,创当时有史以来最大参数规模的LLM记录。

到了2021年,微软联手英伟达发布了5300亿参数的Megatron-Turing(MT-NLP),在一系列广泛的自然语言任务中表现出了“无与伦比”的准确性。

同年,视觉语言模型Turing Bletchley首次面世。

去年8月,该多模态模型已经迭代到了V3版本,而且已经整合进Bing等相关产品中,以提供更出色的图像搜索体验。

此外,微软还在2021年和2022年发布了“图灵通用语言表示模型”——T-ULRv5和T-ULRv6两个版本。

目前,“图灵”模型已经用在了Word中的智能查询(SmartFind)、Xbox中的问题匹配(Question Matching)上。

还有团队研发的图像超分辨率模型Turing Image Super-Resolution(T-ISR),已在必应地图中得到应用,可以为全球用户提高航空图像的质量。

目前,MAI-1新模型具体会在哪得到应用,还未确定,这主要取决于其性能表现。

顺便提一句,关于MAI-1更多的信息,可能会在5月21日-23日微软Build开发者大会上首次展示。

接下来,就是坐等MAI-1发布了。

参考资料:

https://www.theinformation.com/articles/meet-mai-1-microsoft-readies-new-ai-model-to-compete-with-google-openai?rc=epv9gi

https://www.businessinsider.com/microsoft-training-ai-model-rivals-openais-gpt-4-2024-5

https://www.linkedin.com/feed/update/urn:li:activity:7193273937273712643/

本文来自微信公众号:新智元 (ID:AI_era),作者:桃子、好困

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年5月7日
Next 2024年5月7日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日