苹果通往Vision之路

二、从光场说起

VR是完全接管人类“视觉”的显示设备,要理解这个“Vision”,不妨从理解更底层的“光场”概念开始。

当然这里的深度信息(z)并不是完整的,它只是利用了人类“双目视差”的生理机制,而并非真正在空间中重建z轴上的光线。

但破局的点其实在于,机器可以在不理解深度信息的情况下,通过双目视差向人类传递深度信息。

一、何为Vision

我一直都不是果粉,对乔布斯没有什么过多的敬仰,更别说库克了。

但去年6月WWDC上,库克出来讲“one more thing”的时候,我确实看到了他的眼睛里有光,他坚信这就是未来。

本可以平稳地从苹果退休的他,似乎把晚节都压在了Vision Pro上了。

我突然意识到库克和扎克伯格其实是同一类人,他们在赌同样的事,只是库克手里有比小札更多的筹码。

与此同时大洋这边的雷军,也在做类似的事情,只不过赌的方向不同。

我想起很多年前读过的《浪潮之巅》,近一百年来的科技革命就像浪潮一样一波又一波,总有一些个体或者群体很幸运地、有意识或无意识地站在了科技革命的浪尖之上。

今天所有人都意识到了,移动互联网的旧时代快要结束了,那么新世界会在哪里呢?

若我还是多年以前的那个年轻人,大概会喜欢此类让人热血的宏大叙事。

但多年过去后热血不再,我的世界观也坍缩成了“信息论”。

新世界在哪里我并不知道,但我们能看懂苹果做事的内在逻辑。

苹果做的每一件事情,都会让信息更多更快地流动。

事实上当听到苹果将头显命名为“Vision”时,我想到了很多事情。

Vision这个词并不是第一次出现在苹果的产品里。

从2020年发布iPhone 12开始,苹果开始支持HDR视频的拍摄,其使用的HDR规格叫“杜比视界”,英文名为“Dolby Vision”。

要知道苹果Vision产品团队的负责人Mike Rockwell,在2015年入职苹果之前曾就职于杜比实验室,我不认为“Vision Pro”和“Dolby Vision”的这两个“Vision”只是巧合。

很多人并不知道“Vision”这个词到底意味着什么,也没有理解苹果这些年围绕“Vision”都做了些什么事情。

二、从光场说起

VR是完全接管人类“视觉”的显示设备,要理解这个“Vision”,不妨从理解更底层的“光场”概念开始。

我们可以用7个变量来完备地描述人眼在空间中看到的光线的所有信息。

得到这样的一个函数:P(x, y, z, θ, Φ, t, λ)。

其中前三个变量(x, y, z)描述光线的空间坐标位置。

而(θ, Φ)表示水平夹角和垂直夹角,它们描述了光线的角度。

变量(λ)则是光的波长,它描述了光线的颜色。

最后是时间(t),它描述了光随时间的变化情况。

当然,光的物理属性远不止这7个,还有偏振、相位等等。但对于人眼的视觉感知来说,有这7个变量就已经够了。

依靠这7个变量,可以完备地描述观察者看到的光线的所有信息,所以这个函数叫“全光函数”

而“光场”其实就是空间中所有“全光函数”的集合。

我们可以把这类具有7个变量的“光场”叫做“7维光场”

那么完整的“光场采集”,就是获取某个空间里所有光线的这7个变量的信息。

而反过来的“光场显示”,就是在空间中重建带有这7个变量信息的所有光线。

我们在科幻电影里经常能看到神奇的“全息影像”,这里“全息”的意思就是指“全部的信息”。

对于“7维光场显示”来说,会要求在空间里重建光线7个变量的全部信息。

但事实上人类目前的技术还做不到这一点。

我们只能重建部分变量的信息。也就是人类目前所有的显示技术都是不完备的“光场显示”,远达不到7维。

像我们最常见的手机或者电脑的屏幕,它只能显示7个变量中的4个——R(x, y, λ, t)。

其中(x, y)是屏幕像素点的平面坐标,(λ)是颜色,(t)是时间。

因此这种2D平面的手机屏幕,它就可以算是“4维光场显示”。

手机屏幕是没有3D立体效果的,没有(z)变量的信息,也就是没有“深度信息”。

而VR眼镜利用“双目视差”,可以用2幅画面编码一个深度信息(z),我们的大脑能通过双眼来硬解出这个深度信息 (z)。

这就是VR这种双目显示设备相对于传统2D屏幕来说升维的地方。

传统2D屏幕是“4维光场”显示器,而VR是“5维光场”显示器,多了一维基于“双目视差”的深度信息,多了变量(z)。

当然这里的深度信息(z)并不是完整的,它只是利用了人类“双目视差”的生理机制,而并非真正在空间中重建z轴上的光线。

而人类除了“双目视差”还有“单眼聚焦”的机制,这就导致了“VAC问题”,也就是所谓的“辐辏调节冲突”。

因为“双目视差”的优先级高于“单眼聚焦”,所以对于人类来说,VR确实是一种“5维光场”显示器。

而回顾显示技术的进步方向,其实就是在不断地逼近完整的光场显示。

一开始是2维光场的黑白照片(x, y)。

加入色彩信息后,得到3维光场的彩色照片(x, y, λ)。

加入时间信息之后,得到4维光场的平面视频(x, y, λ, t)。

加入深度信息之后,得到5维光场的空间视频(x, y, z, λ, t)。

信息传递的维度不断增加,人类总是贪婪地索取着更多更快的信息,永不满足。

而科学技术也总会向着促使信息流动得更快更多的方向发展。

三、超越算力不足

很多人都说VR没有“杀手级应用”,没有让人非它不可的理由。

但对于一个信奉“信息论”的人来说,我只需要关心有哪些信息的传递非它不可就行。

而答案已经很明显,就是基于双目视差的深度信息(z),这个维度的信息非它不可。

能察觉到这一点的人其实并不少,但是他们之中很少有人能够跨越过“人均算力不足”的鸿沟。

过去十多年的智能手机浪潮,可以看作是普及了1T FLOPS量级的“人均移动算力”,由此带来了移动互联网的繁荣。

但仅仅1T量级的移动算力,支撑不起“元宇宙”的愿景。

重建深度信息(z)需要远多得多的算力,无论谁想要做点什么,马上都会遇到算力不足的情况。

哪怕是苹果M2的3.6T算力,在“空间计算时代”也显得捉襟见肘,而代价是电池外置,并拖着一根不优雅的电源线。

但破局的点其实在于,机器可以在不理解深度信息的情况下,通过双目视差向人类传递深度信息。

VR只是一类“5维光场”显示器,但我们在渲染画面时,却常常不得不去构建“7维光场”的内容,重建全光函数P(x, y, z, θ, Φ, t, λ)的所有信息。

而事实上我们可以抛弃 (θ, Φ),只把注意力放在(z)上,即抛弃视角上的自由度,而追求更大密度的深度信息。

这样就可以在有限的移动算力下,达成最大的信息丰富度。

所以我转向了“双目VR摄影”,并最终选择了可以将“深度信息”标准化的、以VR180为代表的球面3D影像。

可以说这就是我在过去很长一段时间内的思考脉络。

那么,然后呢?

四、在几何之后

我们重新看回全光函数,P(x, y, z, θ, Φ, t, λ)。

它实际上可以分成2个部分,几何和色彩。

对于VR显示来说也是如此。

在过去的十多年里,绝大部分人的关注重点都是在几何上。

清晰度,延迟,畸变,甜蜜点、眼盒……这些都只是VR显示的“几何”部分。

而在明白了VR影像的“几何”原理,拍摄了非常多的VR180影像之后,我发现自己最在意的东西开始转向了“色彩”。

这并非某种洞见,而来源于最直观的感受。

如果我们想要追求重建现实世界的“Vision”,那么就不可能无视色彩。

色彩是一种主观感知,物理学里并没有色彩,只有波长λ。

不同波长的光让人眼的3种视锥细胞产生不同的刺激,从而感知到主观的颜色。

巧的是,这和用“双目视差”去编码“深度信息”很像,我们不需要重建不同波长的光。而只需要用3种波长的光,以不同比例混合去刺激视锥细胞,就可以让人类感知到万千变化的色彩。

这就是现代RGB显示器所依托的底层原理。

这是一张CIE 1931色度图,我们可以认为它覆盖了人眼能分辨出来的所有色彩。

1996年,微软和惠普一起开发了应用于显示器、打印机和互联网的sRGB色彩空间,也就是图中的这个小三角形区域。

一直到今天,sRGB成了最广泛,最通用的色彩空间,但它其实只覆盖了CIE 1931色度图的35%。

在28年后的今天,现代显示器已经完全可以显示更多的颜色,sRGB色彩空间早已是不够用的了。

而苹果从2015年开始在iMac上支持P3色域,一直到今天已经在全系产品上都支持了P3色域。

虽然也有其他产商支持P3色域,但考虑到iPhone在全球10亿量级的持有量,可以说苹果在推动“色彩信息更多更快地流动”的这件事情上,有着不可估量的贡献。

但话说回来,P3色域其实也只覆盖了CIE 1931色度图53.6%的颜色。

而Vision Pro只支持92%的P3色域,换算过来大概也只占了人眼能看到的颜色的49%。

要完全再现人眼看到的“Vision”,这条路还只走了一半。

而除了色彩,亮度也是一个重要的维度。

苹果从2020年的iPhone12开始,支持杜比视界(Dolby Vision)规格的HDR视频拍摄,开始加速“亮度信息”的流动。

那亮度信息并不包含在全光函数的7个变量中,而是作为函数的值出现。

即全光函数P(x, y, z, θ, ϕ, t, λ)描述的是对于在(x, y, z)空间、(t)时间、(θ, ϕ)方向、(λ)波长的光,观察者能感知到的强度,也就是亮度。

我们在SDR的显示器里待久了,似乎忘了这个世界亮度的变化和色彩一样丰富。

可以说在传递“色彩信息”和“亮度信息”这两个领域里,苹果已经走了很远了。

它们都是构建“Vision”不可或缺的部分。

五、通往Vision之路

回到那个问题:移动互联网的旧时代快要结束了,新世界在哪里?

我并不在意这些,但我能看到苹果站在了促进信息更多更快流动的正确方向上。

我很喜欢库克在接受《名利场》采访时说的那段话:

“我多年来就知道我们会达到这里。

我不知道什么时候,但我知道我们终会到达。”

“I’ve known for years we would get here.

I didn’t know when, but I knew that we would arrive here.”

——《Why Tim Cook Is Going All In on the Apple Vision Pro

同样的,我不知道新世界在哪里。

但通往Vision之路,我们最终一定会抵达那里。

本文来自微信公众号:消失的模因GoneMeme(ID:GoneMeme_com),作者:HW君

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年4月22日
Next 2024年4月22日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日