即使iPhone用国产AI也别惊讶,因为Gemini能做的也不多

LU

你可以通过不同的组合词来进行调配(暂不支持自行输入),生成不同的图片风格,这其实是一个挺有趣的功能,但问题是,除了作为壁纸之外,这些生成的。LU

而百度的资料库只有百度百科,我们用同一张照片在三星上进行搜索,由于百度百科的坚尼地城并没有同样视角的图片,所以三星只给出了一个答案。LU

最值得吐槽的,就是在搜索之后京东一定要“配套”给用户推荐一个商品链接,这个功能几乎就没有准确的时候。

上个月,彭博社消息称苹果正在与 Google 进行谈判,希望将 Gemini 集成的 iPhone 当中,为 iPhone 的软件提供 AI 相关的新功能。把新系统的核心功能“外包”给第三方,这种做法非常不苹果。

其实苹果自己也在 AI 上做了不少投入,比如在消息传出的同期,苹果发布了自研 MM1大模型论文,这是一个最高拥有30B 规模的多模态 LLM,但苹果迟迟没有公布公测时间,也没有对外宣布任何上线计划。据知情人士接触到苹果内部团队后了解,团队认为自家的大模型与主流的 GPT4、Gemini 相比“不具备竞争力”,才开始寻找第三方合作商。

或许在6月即将举行的 WWDC 2024上,苹果会公开自研模型的进展与第三方厂商的合作计划,毕竟届时需要对所有用户和开发者展示 iOS 18的核心卖点。而 iOS 18被苹果内部誉为史上升级最大的一个操作系统版本的原因,就是苹果宣称 iOS 18上的 Siri 将会真正地成为用户的“私人助理”。

如果该合作确认落地,那由于合规问题,苹果需要在国内找一家公司进行合作,而不是直接使用 Gemini。

据了解,苹果此前曾三家公司洽谈合作 AI 大模型,其分别有百度的文心一言、阿里的通义千问、月之暗面的 Kimi,但目前概率最大的还是百度,毕竟在三星最新一代的 S24 系列产品上,大陆以外发售地区的 AI 合作方也是 Gemini,而大陆则是以百度、美图为首的一众中国大模型公司。

Gemini 在手机上能做什么?

为了了解目前 Google 在手机上能够实现哪些AI功能,我们找到了一台 Google Pixel 8 Pro,这是 Google 目前唯一能够运行 Gemini Nano 端侧大模型的机器,可是在体验之后,我们发现目前 Gemini 目前的大多数功能都十分依赖网络,端侧模型 Gemini Nano 能够做的事儿十分有限。

刨除因为中文系统语言设定暂不开放的功能,目前 Google Pixel 8 Pro 上面的 Gemini 可以为用户提供八大核心功能:

1. 魔法修图

在 Google 相册中点选“编辑”按钮,你就可以在左下角发现一个彩色的“魔法修图”图标,选择后用户就可以对照片中想要编辑的内容进行框选,框选后你不仅可以进行消除,还可以进行缩放处理。但需要注意的是,每张图片在处理之前一定要上传到云端的 Google 相册进行“备份”,并且在图片处理的过程中需要保持联网。

图源:品玩 LU

选择擦除后,大模型会对擦除的主体后面的画布进行“想象”并生成补充内容,并给出4张反馈供用户选择。在该步骤下,AI 需要识别图片中的物体,并学习该物体的大概轮廓,对应的在数据库中进行比对并给出补充。

图源:品玩 LU摄

可以看到,将图中女人删除后,Gemini 对香港的红色出租车的细节补充还是比较到位的。

你也可以将画面中的主体进行缩放,这个功能非常适合在景点合影时,修正人物不够突出的构图效果。

图源:品玩 LU

2. “魔法换天

在没有主体的风光照中,你也可以依靠 Gemini 对照片进行不同“时空”的转换,比如这张维多利亚港的风光照,我们点击魔法修图按钮后,可以看到 AI 判断我们可以针对天空、日落、风格化、和水进行四个大方向的调整。

图源:品玩 LU 摄

这个功能非常类似小米手机上很出名的“魔法换天”,不得不说日落时分这张做得还蛮有感觉的。

图源:品玩 LU

水面的修改就差了点意思,修改后的这张照片拍摄视角仿佛我站在水里……

图源:品玩 LU

风格化的本意,是 Google 根据照片生成一张场景相同但不同风格照片,但 Gemini 直接把维多利亚港变成了田野……

3. 音频橡皮擦

这应该算是本次 Google Pixel 手机“AI 化”之后,我个人觉得唯二能体现 AI 效果的功能。在该功能下,Gemini 能够将一段视频中的声音进行分层,并且选择性保留。

图源:品玩 LU

如果你是一个Vlog拍摄者,在拍摄例如展会等视频素材时,就可以将展览周围的人声和噪音隔绝,只保留拍摄者自己的声音,然后配上一段合适的音乐,会给你的剪辑工作省下不少的时间。

4. 最佳照片

这个功能简单来说,就是在拍摄合影时可以将多张照片中大家各自最完美的“脑袋”,凑成一张完美的照片,再也不用担心拍照时有人低头、有人闭眼的情况。

图源:品玩 LU

5. AI 壁纸

Google 在手机端其实也提供了“生成图片”功能,但把它隐藏在了壁纸程序中,在这里,你可以选择不同主题开始创作一个专属于你的壁纸。

图源:品玩 LU

你可以通过不同的组合词来进行调配(暂不支持自行输入),生成不同的图片风格,这其实是一个挺有趣的功能,但问题是,除了作为壁纸之外,这些生成的 AI图片并不能直接保存到相册分享给别人。

6. 视频增强

之所以把这个功能放到最后,是因为从实用角度出发,它是 Google Pixel 8 Pro 升级 AI 之后,提升最翻天覆地的一个功能。

视频增强功能可以让用户拍出夜景更加明亮、画面抖动更小、取消远端光学虚化、增加HDR+效果的,最高4K 30帧的视频画面,Gemini在视频拍摄完成后会进行短暂的机内计算,最终合成一个 AI 认为最完美的画面效果。

图源:品玩 LU

7. 即圈即搜

在相册中长按底部状态栏横条,用户就可以调出 Google 的即圈即搜功能,当用户圈选图片中的某些内容后,系统就会通过 Google 搜索引擎匹配对象,给到一个答案。

图源:品玩 LU

但我认为与其说这是 AI 功能,不如说是图片搜索的一个全新入口。

8. 语音备忘录转文字

顾名思义,Gemini 可以将文本内容同步生成文字稿,目前该功能支持印地语、德语、意大利语、日语、法语、繁体中文、英语、西班牙语共8个语种。

图源:品玩 LU

然后呢?

然后就没了……这几乎是你在中文系统环境下能够体验到的全部 AI 功能,其中实际应用 Gemini Nano 的端侧 AI 功能就只有语音转文字这一个,剩下就连 AI 壁纸生成都需要依靠联网完成

可以说 Google Pixel 8 Pro 所有的核心 AI 功能点,都集中在了 Google 相册这个 App 上,且主要依靠“端云协同”,无网络环境下的 Pixel 8 Pro 可谓是一点都不智能。

在下载了Gemini 独立 App 之后,用户可以让它替代 Google 语音助手,在自然语言处理能力上更加出色,不过并不能够和其他手机下载 Gemini App 后拉开明显的使用体验。 

和百度、美图合作的国行版 S24,在 AI 功能上做得怎么样?

除去花哨且没用的“文案优化”、“文生图”这些 AI 功能之外,国产手机厂商其实已经逐渐在手机的 AI 体验上做出了不错的落地功能。

在同样没法将 Gemini 落地的国行三星 S24 系列来说,三星 AI 主要的功能点体现在“通话实时翻译”“即圈即搜”“魔法修图”这三个核心功能

除去通话实时翻译之外,“即圈即搜”和“图片重构”我们在上文的 Google Pixel 8 Pro 上均已体验到,只不过 Pixel 用的大模型是 Gemini,而国行三星则是由百度、京东和美图提供的定制功能。

即圈即搜这个功能两者最大的不同,并不是技术能力,而是搜索源。

Gemini 的资料库是所有可以在 Google 上搜索到的网页,比如这张著名视角的坚尼地城,Google 给出的了如携程、zFrontier装备前线、X、微博、instagram等网站上相近视角的信息。

图源:品玩 LU

而百度的资料库只有百度百科,我们用同一张照片在三星上进行搜索,由于百度百科的坚尼地城并没有同样视角的图片,所以三星只给出了一个答案——城市街道……

图源:品玩 LU

最值得吐槽的,就是在搜索之后京东一定要“配套”给用户推荐一个商品链接,这个功能几乎就没有准确的时候。因为这个搜索的大前提,是搜索的物品要在京东售卖,否则京东就会强行为用户匹配一个相近的商品,导致大多数时间都是“驴唇不对马嘴”。

不过,当搜索的内容在百度百科有相近角度的图片素材时,百度的搜索功能相对于 Google 就会更加准确一些,比如中央电视塔百度就可以很精准地识别出来,而 Google 智能识别出大致的位置在玉渊潭公园附近。

图源:品玩 LU

当然,虽然地标性建筑的搜索百度做的不错,但在京东链接上三星依旧没让我失望,这次它给的推荐是净水器……干得漂亮京东。

图源:品玩 LU

在“魔法修图”功能上,美图的能力和 Gemini 还是略有差距,我们用同样的一张照片分别在 Google Pixel 8 Pro 和三星 S24 Ultra 上进行图片重构,得出的效果确实是Gemini 更加自然。

图源:品玩 LU

并且让我非常不理解的就是,在人物消除之后三星 S24 Ultra 一定要在图片左下角显示一个“内容由 AI 生成”,让人瞬间没有任何分享欲望。可以确定的是,目前其他的手机厂商的 AIGC 消除都不会强制打上这行水印,所以绝不是因为法律合规问题导致的,完全是三星的“自作聪明”。

总结

虽说在照片编辑能力和搜索能力上国内的技术提供方已经给出勉强追赶上 Gemini 的解决方案,但苹果做产品的思维和其他厂商是完全不同的,搭载 iOS 18的新 iPhone 要做到的,绝不只是 Google Pixel Gemini AI 功能的“拙劣复制”。

从 Siri 刚刚发布开始,乔布斯对 Siri 语音助手的定义就不是单纯的搜索工具,而是个人智能助理。

从苹果自研基于 Ajax 的聊天机器人服务就能看出,目前苹果最看重的,其实是 Google Gemini 基于自然语义的对话能力,而不是我们上文提到在Google Pixel 8 Pro 上实现的那些“工具类”功能。

理想状态下,如果 Siri 接入 Gemini,那用户真的就可以把 Siri 当成一个聊天机器人,系统会学习用户的生活轨迹、使用手机的习惯、家和公司的位置等多重信息,智能作出判断。

举个例子:当 Siri 通过时间、地理位置、语气、声纹等信息判断用户可能在酒吧喝醉了,就会在和你对话的过程中帮你调取如 Uber、滴滴这类线上打车软件,叫一辆从当前位置到家的车,并且通过 AI 助理打电话告诉司机可能乘客处于醉酒状态。

这些例如从当前位置打车回家、AI 助理与司机通话等功能拆分开来,目前的 AI 大模型助手都已经可以实现,但如何将一整套流程完整的、顺畅的“串联”起来,是新版 Siri 需要着手解决的问题。

相较于更加工具向的百度文心大模型,其实字节系的豆包 AI 智能助手在自然语义的沟通能力上“更胜一筹”,因为只有让 Siri 听起来更加像一个真人,用户才有跟它沟通的欲望。

想想看,你向往的 AI 助理,是电影《Her》里面的体贴温柔、声音略带沙哑的斯嘉丽约翰逊呢?还是一行行冰冷的文字呢?

本文来自微信公众号:不客观实验室(ID:gh_719281df296b),作者:陆

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2024年4月8日
下一篇 2024年4月8日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日