“互联网要完蛋了,只有我们能救它”

我们是第二波浪潮,彻底抛弃传统压缩技术,只是用神经网络,这也意味着要重新发明压缩,围绕着机器学习技术重新发明的压缩有最高的效果,神经网络拿到数据,压缩文件,发送到互联网,网络收下压缩文件还给你视频。不过我们也在积累,因为数据是回报递减的,现在我们有一两百万的视频序列数据,我们从开源可信的渠道获得或者从视频网站购买,在这个节点它们还挺开放的,但大家都看到ChatGPT让这些开放度在改变,我们很幸运更早地买到了这些数据,这也是个优势但不是这个阶段的真正决定性的优势。

你有多久没听到一家创业公司说自己要拯救互联网了。

今天的创业者似乎要么闷声赚钱,要么在讨论用AI拯救(或者毁灭)全人类。我们每天都生活其中的互联网,似乎早就没人关心他的死活了。

而在Chri看起来,它就要死了。

我在圣何塞明媚的阳光下听他这么对我说的时候,感觉有点耸人听闻。不过当你跟这个头发像狮子一样炸向四方的德国人待久了,他那逻辑严谨的德国味儿英语很容易会让你觉得,这的确是个大问题。

Chri Besenbruch是Deep Render公司的联合创始人兼CEO,简单来说,他的公司在做的事情,就是“用AI来把视频文件的大小压缩到非常小”。

他声称这个算法比行业标准编解码器HVEC“好”多达五倍,不过他没有具体说明用什么标准衡量,并且可以在高通、苹果和英伟达等现代芯片组上实时运行。所谓的“编解码器”是指能够编码和解码数据的软件,有时也是硬件,通常用于音频或视频数据。

有些熟悉硅谷的人听到这可能会恍惚,以为我在复述《硅谷》的剧本,在这部被形容为完美展现硅谷创业生态的美剧里,一切闹剧都因为主人公开发出了惊人的压缩算法。

“是的,很多人跟我说过这个。我们确实很像pied piper。”这个德国长大,本科修读数学,又跑去瑞士读艺术学院,再去英国学计算机的背景复杂人士,和《硅谷》里的主角Richard一样有浓浓的nerd气息,但与电视剧里荒谬的压缩算法突破过程不同、与电视剧里Richard缺少商业常识经常举棋不定不同,他的创业近乎解数学题一样严谨,他对公司的商业模式也想得很清楚。

在他看来,互联网正在走向毁灭,这就是最大的问题。他想解决这个最大的问题,一通分析后,他们认为根本原因是老的技术不适应新的世界:

从视频流行,成为互联网沟通交流的主要形式后,我们其实进入了新的世界。一个数据规模量级越来越恐怖,且不会回头的世界。

旧技术已经不适应这个新世界。沿着老路一直做微小的创新和改进,只会走向绝路,最终是互联网的大崩溃。

“我们要拯救互联网,方法是发明新的压缩算法。而让这成为可能的就是AI。”

沿着这个思路,Chri和他在英国的研究生同学一起在2018年创办了Deep Render——他并不是那些追逐ChatGPT浪潮的创业公司。

《硅谷》

“基本上我们和LLM关系不大,可能和扩散模型有关,但更多是未来的潜在可能。”他对我说。“我们从第一性原理出发,想明白AI适合做的和压缩这件事的本质,最终认为完全依赖AI的方法必定是新的技术路线。”

不过,LLM带来“焦躁”事实上帮助了它的公司。“我们当时其实有赌的成分,因为要实现我们的目标,除了我自己有算法,还需要软硬件的大幅进步,我们当时做了一个预想,设想这些基础技术都能跃进。而今天这些都发生了。”他对我说,语气充满兴奋。

“可能我们就是很幸运而已。”

看起来很谦虚,但他没有说的是,如果他的预想都会成真,他的公司可能会是未来几十年人类最重要的互联网技术公司之一。他们的技术会以授权形式提供给各大公司,解决互联网带宽问题的同时,他们也会成为收水电费和收税的那类公司。

而事实上,一切已经开始变得不同。

今年以来,这家一直乏人问津的公司进入了硅谷和全球知名的投资机构的视野,在3月完成一笔融资后,Chri开始把重心转移到硅谷,这里有钱,也有对他们充满兴趣的大客户。

根据他的表述,目前他们规模不大的团队在面对来自“不能透露名字但都是很重要的大公司”的兴趣和需求时,已经忙不过来了。

而他跟我透露,如果现在一切进展顺利,2024年二季度,就能在一个非常知名的应用服务里用到它的技术。

“几千万用户将会有机会使用它。”

而对视频和数据压缩需求巨大的中国市场,也开始以各种样貌出现在这个还没去过中国的CEO的面前。

“我们有很多与中国有很强关联的投资人朋友,在帮中国的一些公司联系我们。我们已经在接触几家中国最大的互联网公司。”他说。这些需求来得突然而迅猛,以至于他花了半天时间在跟我打听“与中国互联网公司共事是什么样”的基础问题。

“看来你要拯救互联网,没有中国市场也是不行的。”我尽可能给这个大部分时间生活在欧洲的科技创业者讲了东方的故事后,跟他半开玩笑地说。

“你说的对。”他笑着回答。不过在思考中国市场之前,他先要征服硅谷。

在美剧《硅谷》的结尾,Richard的公司在历经6年的坎坷创业后,已经估值达到80亿美金,但就在产品正式发布前几天,他们发现,这个压缩算法和他们开发的用来改进网络的AI互相改进,变成了一个他们也无法理解但能够攻破一切系统的“怪物”,在权衡后他们最终决定“拯救世界”——方法是用一场华丽的出丑让所有人不再对这个技术路线有念想。

对于一场创业来说,这并不是什么好的结局。当我把这个话题抛给明年也要到创业第六年Chri时,他想了一会,然后只是笑着说:

“希望我们的结局更好吧。”

以下为对话实录

Q: 简单介绍一下你和你的公司吧。

A:当然。我是Chri Besenbruch,Deep Render的CEO和联合创始人。Deep Render在做的事情,基本上就是把视频文件等的大小压缩到非常非常小。为什么我们要做这件事,是因为现在互联网上的数据在指数级的增长,90%的数据是过去两年里产生出来的。它们需要通过世界各地的光纤网络传播,在如此大的规模之下,这是一个非常昂贵的基础设施。这个世界的整个光纤基础设施耗费了5万亿。这并不让人感到舒服,因为如果数据每两年翻一倍,对基础设施又意味着什么,它也需要翻倍。但这可是万亿级别的翻倍。这就是个不可能的事。这是我做这个事的起因。

图片来自:Deep Render

我们的想法是,如果我们不能让管道变得更大更快,我们就让管道里的数据变得更小。于是就指向了压缩。这是我们的根基和愿景。

Q: 所以你是先推导出了一个今天互联网面对的最核心问题,以及想出了它的解决方法,然后用它确定你的创业方向。

A: 对,就是这样。因为如果没有一个大幅提高的更好的压缩方法,整个互联网很快就要崩溃。而我爱互联网,我想让它继续运转下去。

Q:那么你们的技术到底有何不同,因为压缩并不是新的东西,它存在很久了,人们甚至已经习惯并且忘了它的存在。也许你可以用傻瓜也能懂的话介绍一下你们的技术。

A: 哈哈哈,我尽力。我们需要从过去60年来看整个产业,当传统的压缩技术出现时,它是个巨大的突破,一切都是基于DCT(DCT代表离散余弦变换,Discrete Cosine Transform,它将图像分成由不同频率组成的小块。在量化过程中,舍弃高频分量,剩下的低频分量被保存下来并用于后面的图像重建。编者注),这个让今天的视频压缩技术成为可能的方法发明于1970,1980年代左右,之后它主导了这个行业。但之后这个技术每10年只有一点点进步,而且它一直是同一个技术思路。我们不能指望一个技术在同一个思路里迭代几百次就能实现效果的飞跃。它是很棒的技术,但只不过它的创新周期结束了或者正在结束。

所以我们需要新的东西。而这个“新”就是AI。因为AI能很好处理图像和视频,所以这并不是什么难以想到的路线。于是AI技术和压缩技术开始结合。之后有两股浪潮,第一股发生在2017年,超分辨率出现,Magic Pony公司发明了它,他们的想法是在管道的中间保留传统的压缩方式,在前后各加入AI。

Deep Render不认为这是正确的做法。因为它中间保留的是我们认定已经彻底崩坏了的传统压缩技术。它与以前的相比没怎么变,而且还很难真正有用。

我们是第二波浪潮,彻底抛弃传统压缩技术,只是用神经网络,这也意味着要重新发明压缩,围绕着机器学习技术重新发明的压缩有最高的效果,神经网络拿到数据,压缩文件,发送到互联网,网络收下压缩文件还给你视频。这是一个只用AI的解决方案。我们在引领这股浪潮,其实我们也是唯一这样做的公司。

Q:所以基本上你是用AI替代了传统技术负责的那部分,那么为什么AI可以,且可以做得更好?

A:两个原因。视频或者说视频压缩本质上就是在文件大小和图片质量之间做取舍(trade- off)。你要么是非常大的文件和好看的视频,要么是非常小的文件很烂的清晰度。所以好的压缩就是好的取舍。在文件大小方面,关键在于数据冗余的部分(redundancy)如果你可以预测下一个像素是什么,你就不需要传送冗余数据,就能节省文件大小。这是AI能够做更好预测的一个地方,预测的好,冗余就可以去掉,就能接收更少数据。而AI根本上就是更强,因为它会对数据做出反应。

二是关于视频质量。任何压缩算法都会在视频输出时带来错误,这就是有损压缩的定义,为了更小文件大小而接受一些错误。但对人类来说,真正重要的是这些错误的分布,我们对某些会更敏感,对其他可能就没事。所以我们的AI模仿人类视觉系统,让这些错误对于人类来说是藏起来的。

一个很棒的例子是,人们讨厌线条变得模糊,如果一个锐利的线条变得模糊人们会感觉不快,因为这是生物学决定的。比如当一个老虎从石头后面开始移动,我们需要能看到它,我们会盯着它。而颜色的准确度就不一定了,如果有损失也没人真正注意到。所以你可以色彩准确度让渡一些但不要模糊边缘。人们就更喜欢这样的视频质量。

我们的思路永远是,从第一性原理入手,什么是合理的,背后的数学原理是什么,哪些工具可以用来解决真的问题。AI正好就是这个最合适的工具。

Q:很有意思,所以这是最基础的思路,接下来就是执行了。作为一个五年的公司,今天的AI变革对你们有冲击么。

A:软件层面我们其实一直扎根在研究圈,我们的软件产品来自研究圈子。今天的AI的变化对我们没什么冲击,我从2015年当AI革命开始时就扎在这些研究圈了。

反而是硬件层面其实是更加新鲜的。我们有很棒的软件层面的压缩技术但过去只能在云端运作,那这就只能算是个不错的研究课题,而不是一个产品。只有当它进入到各个终端让千万人能在自己的设备上用到它,才成为产品。

因此我们当初其实也做了一个对未来技术变化的赌注,除了赌AI会起效果,也赌我们需要的硬件会出现,特定的AI加速硬件,比如NPU,比如苹果高通和谷歌的各种硬件芯片会造出来。我们在2018年下了注,今天2023年我们果然有了。

要么是我们有很好的视野,要么就是运气好。

Q:而且这些硬件大厂也在对你们产生兴趣。

A:对,因为他们有了这些硬件,开始找killer app。我们找到他们说,嘿,每个人都看视频,我们这个就是你要的killer app。这个时间点也很合适。

Q:算法之外,我们之前聊天你提到数据也是一个门槛,但显然大公司掌握更多的数据,这会是个问题吗。

A:很有意思的问题。(沉思)我认为对于AI压缩,最终会发现算法更重要。因为我认为整个领域还不够成熟到需要数据质量决定的阶段。

Q:所以那是第二阶段的问题。

A:对,现在还在第一阶段,我们都不能说有了完美的算法,我们的算法每个月都在大幅进步,变化非常非常快。当算法很强了,才是数据。不过我们也在积累,因为数据是回报递减的,现在我们有一两百万的视频序列数据,我们从开源可信的渠道获得或者从视频网站购买,在这个节点它们还挺开放的,但大家都看到ChatGPT让这些开放度在改变,我们很幸运更早地买到了这些数据,这也是个优势但不是这个阶段的真正决定性的优势。

Q:LLM和扩散模型给你的算法带来新东西了吗。

A:比较少,有一些思路有借鉴,问题是,这些模型看起来可以进入我们的流程,给我们带来提高,比如Stable Diffusion可能可以帮我提高压缩能力,但还是取舍——比如SD10秒处理一次,而我们需要10秒处理300次,如何在实时和效果之间取舍是问题。未来它们有潜力带来影响。

Q:如果我们从竞争的角度看,目前你的挑战来自哪里?

A:算法,然后背后是人。我们很多基础算法是自己研究,因为没有多少论文可以看。最关键的挑战就是组建好的团队,因为市场上有很多人研究AI,没那么多人研究信息论,而同时研究两者的几乎为零。所以我们需要组队然后训练他们,这需要很长时间,因为它们彼此关联不大。所以你需要先训练一批人,再让他们带下面的人,这是个金字塔结构。

Q:你们已经建立了这个金字塔么。

A:我们有超过30位AI研究超级明星了。但我们为此花费了很长很长的时间。

Q:所以世界唯一的30个人都在你这。

A:我愿意这么说。也有一些实验室在看这些话题,他们也有很好的人才,但目前为止在规模上,Deep Render是这个领域最大规模的组织。

Q:我看到你提到要用最近新的融资来扩展硅谷的生意和存在感。

A:对,这是有点奇怪,我们是英国公司,但使用互联网资源最多的公司在中国和美国。而且,欧洲确实不是一个对科技发展友好的地方。我们有很多来自美国的需求,所以进入美国顺理成章,中国也是一样。

Q:有中国客户接触你们么。

A:我不能说名字,我签了很长很长的协议所以我要小心哈哈。但我接触这些公司,发现中国确实在带宽上的需求比美国都更高。

Q: 你们已经在接触客户,如果用人们喜欢讨论的PMF来判断,你们现在到了什么阶段

A:这总是很难去定义。我会认为我们达到了PMF,因为我们拿到的需求已经处理不完了。我们真的在拒绝很多大公司,因为我们自己有的带宽资源不够了,许多公司预定我们,而我们现在只能同时处理4到5个大公司的需求。一旦这个技术再更成熟一点,商业化就更容易了。我们已经度过了概念验证阶段。如果一切顺利,2024年二季度你能看到我们的技术被应用到一个非常知名的互联网服务里,到时候数千万的用户会使用它。

Q:面对疯狂的需求,和有限的人手,以及你们自己的技术现状,如何平衡取舍就是你这个CEO的职责了。

Q:哈哈,这就是我这个工作的挑战之处。我要尝试做决定。走太快总是消耗资源,并且招聘会带来挑战,我们的员工一般需要4个月训练才能有产出。所以你说的对,这是个优化难题,当然,可能谁用AI开发个工具我愿意花钱买。

Q:哈哈,在这儿也许LLM就可以参与进来了。

A:对哈哈哈。

Q:看起来一切都进展顺利,你给这个生意设计的商业模式是什么。

A:我们目前是B2B的形式,我们给客户提供产品授权,客户能节省很多很多钱,里面的一部分给我们就行。这是个基于授权的商业模型。如果你看这里的数据,其实很疯狂,到2030年,全世界花在传输内容的成本会达到1250亿美元。如果你想搞垮Netflix,你就用4K,24小时不停看Netflix看一个月。

Q:最好别这样。

A:哈哈哈,但如果你能把文件大小缩小比如90%,那么按照1250亿美元算,公司们能节省很多很多钱。

Q: 这就是你赚钱的机会。

A:这是一个所有人都获利的生意。我赢了,公司赢了,用户赢了,大互联网公司赢了。没人损失什么。

Q:拯救互联网的事呢,你的公司帮忙建造的未来的互联网的样子,你想象过么。

Q: 当然,每天做梦都在想象哈哈哈。我们的愿景是让带宽变成没有限制的商品,让所有人不再担心网速,对于每个人,可以在家享受极高质量的视频,对于公司,可以获得非常便宜甚至免费的互联网资源,信息可以流动,即便是今天认为很重的数据也能自由流动。这才是互联网本来该有的未来。

Q:最后这个问题,肯定很多人跟你提过了,聊到这让我更加有这种感觉,就是那个美剧《硅谷》里的故事似乎和你们一样。

A:对对对。这几乎是我最喜欢的剧。但其实很有意思的是,我和我的联合创始人直到创办Deep Render一年半以后才知道这个剧,因为HBO在英国没那么火。但很有意思的是,我们的商业模式和我们经历的阶段,和这个剧里的故事几乎一样。尤其是我们是后来才看到的,我们俩说,等一下,这不就是跟我们一样么。

Q:你也知道这部剧最后的结局。

A:哈哈哈,希望我们的结局更好吧。

本文来自微信公众号:硅星人Pro(ID:gh_c0bb185caa8d),作者:王兆洋

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年9月25日
下一篇 2023年9月25日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日