法国的OpenAI,美国制造

欧洲人工智能产业在全球分工里找到了自己的定位:开会。

ChatGPT横空出世的2023年,欧洲能喊得上名号的全球性AI峰会有近20个,大约是美国的3倍、中国的5倍[1]。在人工智能权威杂志(AI Magazine)年末总结的“2023 Top10 AI Events”中,欧洲承办的会议占比高达70%[2]

如此高密度的文山会海,显性成果只有一个——推出了以《人工智能法案》为代表的一系列管理办法。

一系列监管举措逗乐了大洋对岸的美国人,纽约研究机构CB Insights的首席执行官表示,欧洲现在拥有的AI法规比像样的AI公司还要多:“衷心祝贺欧盟制定了具有里程碑意义的AI立法,继续努力做一个技术创新的空心市场吧[3]”。

抛开讽刺挖苦的成分,欧洲在人工智能领域的建树的确逊色,独角兽公司的稀有程度也堪比野生雪豹。


去年召开的VivaTech峰会上,法国总统马克龙就点名表扬了一家来自革命老区巴黎的AI公司Mistral,称其为“法国的OpenAI”。

Mistral的知名度不如OpenAI,但包括英伟达、Salesforce和谷歌前任董事长施密特在内的这些投资者,暗示了它的份量。去年底,Mistral在推特上低调发布了其开源模型Mixtral 8x7B,迅速引爆了各大开发者社群。

但这样一家被马克龙称为“欧洲的希望”的公司,它的每一个横截面都折射着欧洲人工智能产业的尴尬。

大学生支援家乡建设

去年12月,Mistral在A轮融资中斩获20亿美元估值,震惊欧洲投资圈。

这家公司2023年5月才宣告成立,初创团队只有六个人,靠着7页PPT拿下了1.13亿美元的种子轮投资。有位早期投资人将Mistral视为“欧洲的尤里卡时刻”,意思是欧洲人非常善于搞科研,但商业化水平差劲,而Mistral将改变这一切。

Mistral之所以备受瞩目,核心在于其大模型的“混合专家模式”的MoE(Mixture of Experts)架构。

MoE架构主要由两个关键部分组成:专家网络和门控机制。

(1)专家网络:传统Tranformer架构的FFN(前馈网络)层是一个完全连接的神经网络,MoE架构的FFN层则划分成稀疏性的神经网络,这些被称之为“专家”的小FFN,每个都有自己的权重和激活函数,它们并行工作、专注于处理特定类型的信息。

(2)门控机制:用来决定每个token被发送到哪个专家网络的调配器,比如下图中“More”这个token在输入概率(p)为0.65时被分配到FFN2,而“Parameters”则在输入概率(p)为0.8时被分配到了FFN1。

通俗一些说,经典的Tranformer架构在运行时,无论下达的推理指令是什么,都会把系统中所有的员工全部调动起来问个遍,颇有些劳民伤财;MoE架构则是“术业有专攻”,把不同的问题交给相应领域的专家来解决。

这意味着MoE架构在推理时,最大程度实现了性能和参数规模之间的平衡,节省了科技大厂谈之色变的算力成本。

正因如此,Mistral 8x7B模型一经问世,让Meta的LLaMA2大模型都有些黯然失色,其背后是MoE架构对Transformer的创新性改造。

近期,Mistral又发布了性能逼近GPT-4的超大杯模型Mistral Large,虽然并未开源,但上线闭源大模型,意味着Mistral正式加入AI的商业化竞争。

Mistral在领英的页面也显示,近期从事商务拓展的员工比例大幅增加,已占其整体的近40%[4]

按照其CEO Arthur Mensch的说法,Mistral Large的训练成本仅为2000万美元左右,而OpenAI的模型则超过5000万美元。

对于一家如此罕见的科技新贵,欧洲各国政府自然是捧在手里怕摔了,在监管政策上也对Mistral大开绿灯,采用了“AI基础模型豁免,AI应用重点监管”的分层处理思路。这意味着Mistral的产品仅需承担有限的披露义务。

然而,举欧洲上下扶持的Mistral,本质上却是一家彻头彻尾的美国公司。

美国的钱,美国的人,美国的市场

与“注册地”这个法律层面证明公司国籍的事实信息相比,人才、资本、市场三大经营要素也许更能代表一家企业的内核。从这个意义上讲,Mistral的确更像一家美国公司。

Mistral的三位联合创始人人生经历非常雷同:都是土生土长的巴黎人,都有在美国公司的工作经验,也都有着与程序员身份不符的发量。

CEO Arthur Mensch在巴黎读到了博士后,与另外两位创始人彼此相识于巴黎求学生涯。博士期间,Arthur发表了深度学习领域大作《结构性预测与注意力中的可微分动态编程》。

依靠这篇论文,Arthur一毕业就加入了DeepMind巴黎团队,从事语言模型的开发。

首席科学家Guillaume Lample与首席技术官Timothee Lacroix则在毕业后远赴美国镀金,转岗至Meta位于巴黎的AI分支机构,主攻大模型项目。Meta的开源大模型LLaMA,就由Guillaume Lample领衔开发。

CEO Arthur并非人们眼中典型技术极客的样子,他是个狂热的马拉松爱好者,对硅谷大公司的官僚文化深恶痛绝。这让三个姓氏连起来就是“L.L.M(大语言模型)”缩写的青年,命运再次交织在一起。

Mistral的“含美量”不仅体现在创始团队的履历,大部分Mistral员工的上一份工作,也在美国科技公司位于欧洲的分支机构。

而在Mistral成立八个月内的两次融资中,背后的核心力量也是美国的风投基金和产业资本。

Mistral的走红虽然吸引了一众欧洲本土的Old Money捧场,包括菲亚特背后的阿涅利家族、老佛爷百货的家族办公室Motier Ventures、英国风投基金First Minute Capital。

但在1.13亿美元的种子投资里,领投方其实是美国老牌基金Lightspeed。

而在A轮融资中,另一家老牌基金a16z,与微软、英伟达和Salesforce这些美国产业资本抢尽了风头,Mistral不仅是用了微软的Azure云服务,还与亚马逊达成协议,使其成为Amazon Bedrock客户的基础模型开发商。

尽管CEO Arthur曾多次公开表示Mistral的主要目标市场是欧洲,并强调欧洲在人工智能领域的独特优势。但同样身不由己的是,Mistral目前一半的客户都来自美国市场

Mistral的轨迹似乎重复着某种轮回。凭借AlphaGo红极一时的DeepMind诞生在英国,但在创办第四年就被谷歌收入囊中。

曾经的“英伟达杀手”——英国芯片公司Graphcore受困于财务压力;文生图模型Stable Diffusion背后的Stability AI其实是家英国公司,但似乎所有人都默认它是美国公司。

欧洲科技公司的理想似乎总是由美国最后买单。历史的前车之鉴高悬在Mistral头顶,时刻提醒着它难以摆脱的命运。

宿命般的轮回

2018年4月,杰夫·辛顿、约书亚·本吉奥,以及德国计算机科学家尤尔根等200多名学者,共同签署了一封联名公开信,尖锐地提出了一个警告:欧洲在人工智能领域正在远远落后于美国和中国。

当时,OpenAI刚刚发布基于Transformer的GPT模型,眼看着人工智能在美国加速,欧洲成立了一个旨在打造全球人工智能强国的研究机构ELLIS应对。但信中的警告还是成为了预言,猜中了生成式人工智能的全球竞争格局。

欧洲并不缺少顶尖的高校和人才,“人工智能三巨头”杰弗里·辛顿、约书亚·本吉奥和杨立昆都是如假包换的欧洲人。欧洲人工智能遇到的的真正问题,是软件和互联网这门“前置产业”的缺位。

2012年,在斯坦福教书的吴恩达教授以顾问的身份进入谷歌,主持The Cat Neurons项目(即“谷歌猫”)的研究。这个项目动用了遍布谷歌各个数据中心的16000个CPU来训练(内部以过于复杂和成本高为由拒绝使用GPU),这是当时科技公司能拥有的最大规模的算力。

谷歌之所以兴建大规模的数据中心,是因为大量的互联网公司都是谷歌云服务的客户。如今大模型的“万模之母”Transformer架构,同样来自谷歌。

就像不能脱离电商谈直播带货一样,英伟达在AI时代大杀四方,是因为一大批游戏玩家给黄总报销过研发成本;欧洲汽车工业的底子,也是因为斯柯达在1895年就开始造大炮了。

人工智能、互联网和软件,都属于“计算机科学”这门大产业的子集。美国人工智能的繁荣,是因为微软、谷歌和亚马逊在互联网时代为人工智能储备了大量的“人才预备役”。

高等教育可以培养人才,但吸引人才靠的是产业的繁荣。丰田的电动车工程师跳槽去比亚迪,总不会是因为能在深圳交社保吧。

与美国互联网的Magnificent 7、中国的BAT相比,欧洲的互联网产业几乎是一片盐碱地。

全球市值最高的50家互联网公司中,中美两国占据了39家,欧洲公司只挤进了一家Spotify。而欧洲最大的互联网独角兽,居然是估值180亿美元的Onlyfans[5]

互联网产业的荒芜,造成了人工智能“人才蓄水池”的缺失。

“人工智能三巨头”中,辛顿和本吉奥选择移民加拿大,前者把公司卖给了谷歌,后者进入蒙特利尔大学任教。杨立昆则在纽约大学教书,后来跳槽到了Meta。

AGI喷涌的2023年,美国风险投资支出的主力是以Magnificent 7为代表的科技公司,其规模是美国其他投资机构的两倍、更是欧洲的近六倍[6]。欧洲并不缺钱,但从Mistral的融资就能看出,Old Money们更愿意扮演锦上添花的角色。

对前沿技术的投资,本质上是上一个时代的成功者,面对下一个时代来临时的避险行为。只是爱马仕和LV不需要担心这个问题。

尾声

人工智能产业的中美竞争一直是舆论场热度最高的话题,中国公司则常以追赶者的身份亮相。但在怒其不争之余,我们常常忽略,成为追赶者也是有门槛的。

繁荣的互联网和消费电子产业带动了芯片设计、数据中心、云计算等一系列细分门类的建立,它们都是发展人工智能重要的基础设施。同时,它为相关人才提供了一个重要的培养与输送的体系。

ChatGPT横空出世时,“为什么又是美国”的声音此起彼伏。但如果把时间拉长,会发现从晶体管、集成电路,到Unix、x86架构,再到如今的机器学习,美国学界和产业界几乎都是领跑者的角色。

关于美国“产业空心化”的讨论不绝于耳,但以软件为核心的计算机科学这门产业,不仅从未“外流”到其他经济体,反而优势越来越大。

追赶与模仿并不可鄙,产业的进步从来没有拔地而起的故事。反倒是不同行业间隐藏的递进与链接,决定着一个经济体面对技术浪潮时的姿态与命运。

近期,Mistral宣布与OpenAI的主要投资方微软达成重要合作,这一消息火速引起了欧盟相关部门的注意,该部门称合作可能涉及潜在风险,需要就此进行深入调查[7]。与此同时,欧盟也在针对微软与OpenAI之间的投资进行并购合规方面的审查。

人工智能的全球分工,好像走向了互联网与消费电子时代发生过的故事:美国创新,中国模仿,欧洲罚款,印度抓人。

参考资料

[1] Microsoft shifts AI focus off Sam Altman,AXIOS

[2] Top 10 artificial intelligence events in 2023,AI Magazine

[3] Europe should worry less and learn to love AI,Financial Times

[4] LinkedIn

[5] Companiesmarketcap

[6] 2024年欧洲风险与增长潜望,Lazard

[7] Microsoft’s tie-up with French startup Mistral AI is getting antitrust review from EU,Fortune

[8] 深度学习革命,凯德·梅茨

[9] 不是OpenAI也不是Google,这家估值20亿美元的小公司成了AI社区的最爱,硅星人

[10] 大模型前瞻研究:解码MoE架构,Alpha Engineer

[11] ‘It’s just a matter of time’: why AI could help Europe create its own Apple or Google, The Guardian

[12] Artificial intelligence: Europe needs to start dreaming again,Niccolò Bianchini,  Lorenzo Ancona

[13] Europe Regulates Its Way to Last Place,WSJ

[14] 2012,改变人类命运的180天,远川研究所

[15] 2023人工智能行业现状报告,腾讯研究院

本文来自微信公众号:远川科技评论 (ID:kechuangych),作者:沈丹阳,编辑:李墨天,视觉设计:疏睿,研究支持:陈彬、王一川

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年3月14日
下一篇 2024年3月14日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日