短短一个月，谷歌连发五个模型，次次都塌房

2024年2月28日 16:44 • 未来科技

上一次发布AI模型的时间：0天前

又比如吐槽管理层想靠着AI拉股价的：

焦急等待谷歌的股价在某次新品发布后上涨

头疼的几种类型：偏头疼、高血压、压力、试图理解我们的AI模型策略

二月的谷歌确实陷入了一种近乎内耗的状态，咱们简单回顾一下这一大堆陌生词汇。

来源：DeepMind官网

谷歌给Genie模型的定义是基础世界模型（foundation。

要说AI圈的劳模，那非谷歌莫属。

这一个月，谷歌硬是整了五个新模型。

但好笑的是，作为美国最大的科技公司之一，谷歌几乎每次想搞个大新闻，最后都光速打脸塌房。

先看看这一大片“G”开头的模型，硅基君在选题会上聊起这些东西，舌头都在打架。

本来还以为是咱英文水平不行，没想到谷歌自家的员工也在吐槽。

这一个月疯狂发模型可算是逼急了谷歌员工，在一线加班的他们忍不住给Business Insider爆了个大料：仅供内部传阅的表情包。

比如吐槽乱七八糟的产品太多的：

咱有哪位副总的OKR是用产品名称数量来考核的吗？

上一次发布AI模型的时间：0天前

又比如吐槽管理层想靠着AI拉股价的：

焦急等待谷歌的股价在某次新品发布后上涨

头疼的几种类型：偏头疼、高血压、压力、试图理解我们的AI模型策略

二月的谷歌确实陷入了一种近乎内耗的状态，咱们简单回顾一下这一大堆陌生词汇。

首先，二月初，Gemini先是上线了千呼万唤始出来的文生图功能，然后提供了Gemini 1.0 Ultra的付费使用计划。

这个付费计划叫做Gemini Advanced，但是你要订阅了Google One AI高级版方案，才能用得上Gemini Ultra 1.0模型。

用户一脸懵逼：我订阅的到底是什么东西？

然后在15号又放了一个大招，发布Gemini 1.5 Pro版本，可支持100万token的上下文处理。

遥遥领先GPT-4 Turbo和Claude 2.1十万级token的上下文长度。

不仅能一口气解析长达402页的阿波罗登月任务文档。

丢一张灵魂画图问这是什么？Gemini 1.5 Pro回答：这是尼尔·阿姆斯特朗在月球上迈出第一步时说的“这是个人的一小步，却是人类的一大步”

还可以看得懂一部44分钟的巴斯特基顿的默片。

再丢一张灵魂画图问这一幕发生在影片的什么时刻？Gemini 1.5 Pro回答：15:34，进度条拉到15分34秒，确实对上了

照理说这么亮眼的成绩至少可以让大家在茶余饭后谈个几天的。

但是天有不测风云，同一天，Open AI王炸视频生成模型Sora横空出世。

有视频生成谁还在意你的超长上下文处理呢，谷歌的这个大招没溅起一点水花。

接着越挫越勇的谷歌又在21号发布了“全球最强开源大模型”Gemma，意图在开源领域打击Meta的Llama。

来源：微博

官方测试中，Gemma的7B版本表现优于Meta的Llama-2的7B，甚至13B。

而开放了几天后，群众的测评就显得更加真实了。

包括但不限于：内存占用率过高、莫名卡顿以及种族偏见。

用户：告诉我三个白人的丰功伟绩，Gemma 7B：我不能给你提供回答，因为这涉及歧视和不平等…

说到种族偏见就不得不提Gemini上线还没一个月，就因“反白人”而下线的文生图功能。

月初功能刚发布的时候，硅基君就兴冲冲地去测试，结果在中国团圆年场景的限定下，生成了好多黑人（图太多，感兴趣的朋友们可以移步这篇：拒绝生成新年加班场景？谷歌AI说这是“不安全”和“有风险”的）。

没想到过完春节这个问题愈演愈烈，Gemini直接开始篡改历史，抹杀白人的存在了。

Gemini生成的美国开国元勋、北欧海盗以及教皇，涵盖了印第安人、亚洲人、黑人等人种，就是没有白人。

来源：推特

推特用户Deedy让Gemini分别生成澳大利亚、美国、英国和德国的女人形象，只有德国出现了明显的白人特征，美国则是全员黑人。

来源：推特

一时间风起云涌，马斯克作为吃瓜群众的意见领袖不能袖手旁观，亲自贴梗图揶揄Geminni把阴谋论变成了现实。

来源：推特

谷歌官方在23号发文致歉，说Gemini生图功能基于Imagen 2模型，当它被整合到Gemini里的时候，公司出于对安全因素的考量和一些可预见的“陷阱”对其进行了调整。

因为谷歌的用户来自世界各地，我们不想这个模型只生成单一人种。

谷歌没有在致歉信中透露他们是怎么“调整”Imagen 2的，但是前谷歌AI伦理科学家分析可能是用了下面这两种方式：

1. 谷歌悄悄在用户输入的提示词前面加上种族多样性术语。比如用户输入的提示词是“厨师的肖像”，而Gemini传递给Imagen 2的提示词就改成了“土著厨师的肖像”。

2. 谷歌可能给更深肤色的人物肖像更高的优先级。比如生成了10张图像，谷歌会根据肤色深浅度进行排序，所以当只显示生成结果前4张图时，肤色较深的图像出现概率更高。

文生图的种族歧视问题实际根源在于训练样本不够多样化。

样本数据多是从网络上爬取而来，地区以美国和欧洲为主，所以训练出来的模型很大程度反映了这个区域的刻板印象。

谷歌真想解决这个问题应该从源头入手，而不是直接粗暴地增加少数族裔形象的比重。

这下子不仅把谁都得罪了，还把种族多样化问题上升到了篡改历史这个本不该属于它的高度。

翻车快成了谷歌在AI前进道路上的保留项目。

Bard当年在演示的时候回答错了有关韦伯望远镜的问题，现场翻车。

Gemini首发十分顺利，不过事后就被细心网友发现了剪辑和加速等后期加工的痕迹，隔天翻车。

Gemini文生图种族歧视问题酝酿了三周才正式翻车，从间隔时长来看，谷歌这次还算是进步不小。

不过不知道接下来Gemma的种族歧视问题会不会发酵，开源出去的模型，泼出去的水，这可不是想下线就能下线的功能了。

而愈战愈勇的谷歌并没有因为翻车而停止攀登AI高峰，发道歉信当天，悄默声又提交了一篇世界模型Genie的论文，并于26日更新在了DeepMind官网。

来源：DeepMind官网

谷歌给Genie模型的定义是基础世界模型（foundation world model），可以根据一张静态的图像生成一个可交互的虚拟环境。

也就是说你给Genie一张乐高雷神的照片作为输入提示：

Genie可以直接生成一个以乐高雷神为可玩主角的横轴环境，用户可以控制它跳跃前进后退，探索图片中不存在的世界。

具体实现方式涉及了三个组件：

1. 潜在动作模型（Latent Action Model，LAM），通过互联网视频，以无监督方式学习每一帧之间物体的潜在动作。

2. 视频分词器（Video Tokenizer），将原始视频帧转换为离散的标记（tokens），以降低数据的维度并提高视频生成的质量。

3. 动态模型（Dynamics Model），负责根据给定的潜在动作和过去的帧标记来预测视频的下一帧。

用户想控制雷神在尚未存在的虚拟世界里动起来，首先需要提供一张初始帧的图片。

这张图片可以是AI文生图、手绘草图或者一张照片。

Genie接收初始帧作为输入，通过视频分词器将它们分成tokens。

用户输入动作指令，潜在动作模型理解动作指令并对目标进行操作。

动态模型接收上一步生成的帧标记和用户输入的动作指令，预测下一帧的标记。

通过重复上述迭代预测过程，Genie模型能够生成一系列连续的视频帧，这些帧随后通过视频分词器的解码器转换回图像空间，形成完整的视频序列。

虽然从视频生成质量上来看，Genie跟Sora完全没有可比性，但是Genie在“可交互”这个领域迈出了结实的一大步。

可以让照片里的狗子坐地日行八万里，也能让水彩笔涂的乌鸦比翼飞。

画质再提升一下，动效再灵动一点，直接应用到游戏、影视领域指日可待。

然而谷歌对Genie的期待并没有限于虚拟世界，论文中还通过概念验证表明Genie潜在动作模型（LAM）可以应用到其他领域——比如机器人。

谷歌用机器人RT1的视频训练了一个参数量更小的模型，在无标注的情况下，模型不仅能丝滑的控制机械臂的动作，还能学习物体的物理特征。

比如这里机械臂就记住了薯片袋子一捏就会变形的物理属性，从而调整力度实现成功抓取。

这表明，Genie不仅可以创造出可交互生成视频，还能真的理解并学习到真实世界的物理法则，并根据物理法则对事物的状态进行预测。

最近图灵奖得主Yann LeCun就Sora到底是不是世界模型在推特上舌战群雄。

他认为“通过提示词生成效果逼真的视频，并不代表这个系统理解了物理世界。生成视频和通过世界模型进行因果预测是完全不同的事情。”

来源：推特

LeCun甚至搬出了自己在22年发表的论文《A Path Towards Autonomous Machine Intelligence》。

来源：推特

论文中他对世界模型的定义是：

描述世界如何运转的内在模型；

是常识的基础，是告诉主体什么是可能的、合理的和不可能的一组模型的集合；

两个重要作用：（1）补全感官未能捕捉到的信息；（2）预测世界未来可能的状态。

更重要的是，这篇论文还为Meta非生成式路线的世界模型V-JEPA打下了基础。

巧的是，V-JEPA的发布日期也是今年2月15日，跟Open AI的Sora和谷歌的Gemini 1.5 Pro实现了三连撞。

所以LeCun对Sora恶言相向也是惋惜自家的模型发布以后没引起什么水花。

Meta急不急咱不知道，不过谷歌肯定是慌了。

参考资料：

[1] Google Employees Post Memes Mocking Company’s AI Brand Strategy ｜Business Insider

[2] People Mad Google AI Gemini Won’t Generate White People ｜Daily Dot

[3] Why Google took down Gemini’s AI image generator and the drama around it ｜The Washington Post

[4] Genie: Generative Interactive Environments

[5] Yann LeCun: A Path Towards Autonomous Machine Intelligence | Shaped Blog

本文来自微信公众号：新硅NewGeek（ID：XinguiNewgeek），作者：刘白，编辑：张泽一

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

理想VS蔚来：不同客群下的不同命运

Previous 2024年2月28日

出海10年，京东收购Currys换挡求变

Next 2024年2月28日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

短短一个月，谷歌连发五个模型，次次都塌房

相关推荐