痴迷图像的汤晓鸥,生命定格在人工智能视觉的巅峰上

汤晓鸥带着他的实验室在2011年就开始把重点研究都投入到了深度学习上,这个今天几乎一切AI成就的技术底座,在当时远远不是显而易见的选择,就像汤晓鸥所说,在当时它只是一两个人在研究的方向。

而这个策略如期带来效果,汤晓鸥的学生被麻省理工、斯坦福等名校录取,然后国内最好的学生都想来他的多媒体实验室,再然后,他们发现自己可以从这里直接进入最好的公司,再然后人们就不再把它视作跳板,而最终他领导的多媒体实验室成了全球最顶级的实验室之一,有了后来中国AI黄埔军校的称号。

汤晓鸥总能在他演讲的前两分钟把听众逗笑。在2018年的一次MIT组织的演讲里他这样开篇:我知道今天观众很多是说国语的中国人,所以我决定说英语。在某一年的云栖大会上他说,我听组委会跟我说有一千万人在看,我非常紧张,所以我做了一百页的ppt,十万人一页,组委会很紧张,问我会不会超时,我就保证说,一定会的。

他是商汤科技的创始人,在那之前他是计算机视觉界论文最多研究影响力最深的人之一,被业界称为全球人脸识别技术的开拓者。同时他也是浦江实验室主任,上海人工智能实验室主任,这些实验室在今天的大模型浪潮里也十分活跃。

而在一切头衔之外,他给人的第一印象更像我们都遇到过的那些比相信自己学术成就还更相信自己幽默感的老师们,偶尔糟糕的冷笑话最终挡不住你想要在学业上追随他的冲动。在讲究师傅带徒弟的AI界,汤晓鸥的门徒也是光彩夺目。除了一起创办商汤的徐立,ResNets一作,被誉为大神的何恺明、全球最有影响力的CV开源项目 OpenMMLab的主导者林达华等也是他的学生。

因此当12月16日,噩耗传来时,一切显得更加的不真实。

当天下午时分商汤科技及汤晓鸥教授治丧工作组发布了讣告,宣布了这则令人悲痛的消息。讣告称,55岁的汤晓鸥因病救治无效,于2023年12月15日23时45分去世。

甚至许多人是在和汤晓鸥同在的群里得知消息,之后悼念和感慨蔓延开来。而AI界的许多悼念都以分享和他之间过往的直接接触展开,有人回忆当时做实习生时,他给大家组织的各种有趣的活动,“他是我见过AI圈里最有趣的人”;有人分享在和他一起参加的学术会议上,他的风趣幽默,以及勤奋“当年我们在欧洲参加会议趁机到处去景点,而他却关在旅店写proposal”;请他帮忙撰写过研究生,博士和学术委员会推荐信的人们,也都在感慨着他的认真和亲和,“他还会提醒我避免中国人习惯性的谦虚,要更好地展示自己的成绩”。在他的公司和研究院工作过的人们称赞他带来的远见和领导能力。

“天妒英才。”这是人们普遍的感受。

资料显示,汤晓鸥1968年出生,出生于辽宁鞍山,1990年从中国科学技术大学毕业;1991年获得美国罗切斯特大学硕士学位;1996年获得麻省理工学院博士学位,之后进入香港中文大学工作;2001年创立了香港中文大学多媒体实验室;2005年至2007年在微软亚洲研究院工作,担任视觉计算组主任。

在这期间,他的个人志趣和学术,商业以及整个人才生态的贡献逐渐统一在一个事上:图像和视觉。

据商汤CEO徐立的一次回忆,他曾和汤晓鸥有过深入讨论,最终两人达成共识:人工智能这个技术改变世界并不需要那么多人,可能只是一两个人的事情。

对于视觉的研究也显示出这样的思路,他的实验室并没有追逐当时最简单热门的课题,而是选了一个从今天的视角来看,充满对技术趋势的准确判断和捕捉的方向:深度学习。

汤晓鸥带着他的实验室在2011年就开始把重点研究都投入到了深度学习上,这个今天几乎一切AI成就的技术底座,在当时远远不是显而易见的选择,就像汤晓鸥所说,在当时它只是一两个人在研究的方向。在2011年到2013年间,全球顶级计算机视觉学术会议上,有关深度学习的文章共29篇,其中14篇是来自于商汤团队前身,几乎占了一半。  

但这种独到的判断带来的积累后来成为商汤吸引投资人的重要因素,也让汤晓鸥给商汤聚集了一批中国深度学习的人才,再次给自己创办的这家公司以及AI行业的未来埋下伏笔。

汤晓鸥的学术与创业经历都围绕图像展开,而这一切又都来自他自己最朴素的好奇心和兴趣。

“这项技术能干什么?它能植入广告。”在多个公开演讲里他曾这样半开玩笑的直白讲解CV技术的用途。在这些演讲里他也总是会展示一张照片,这是一张他的儿子小时候的照片。“不过我今天最想植入的是这张图片。”

根据他自己讲述,他在北京和香港两地工作,当时才两岁的儿子是他最深的牵挂,他开始频繁地给儿子拍摄照片,相册几乎涵盖了孩子成长的每个瞬间。直到照片积攒到成千上万张时,他意识到分类成了难题,想在海量照片里找到某个时间段或某个有趣瞬间的照片非常困难。而他的解决方法是,让学生们来。

于是他开始研究名为Photo Tagging的课题,采用计算机视觉的技术手段来给相册进行分类整理。这成了后来他们很多技术突破的起源。

他的很多决策也都像这个故事一样接地气。汤晓鸥1997年到香港中文大学任教。2001年7月创立多媒体实验室,主要研究系统性能与人脸识别。据《财富》早年的一篇报道称,他当时发现香港招不到最优秀的学生,顶尖学生追求去美国读书,不愿留下做动辄数年的研究工作。然而与其他老师纠结于此不同,汤晓鸥立刻找到了解决方法:“学生要去美国,那自己就做学生最有利的跳板,但我的实验室只送你去全球前四学校,而且你要足够勤奋”。

而这个策略如期带来效果,汤晓鸥的学生被麻省理工、斯坦福等名校录取,然后国内最好的学生都想来他的多媒体实验室,再然后,他们发现自己可以从这里直接进入最好的公司,再然后人们就不再把它视作跳板,而最终他领导的多媒体实验室成了全球最顶级的实验室之一,有了后来中国AI黄埔军校的称号。  

这也像是他一生在学术和产业界的缩影,凭着朴素的好奇心和兴趣,在初心推动之下以接地气的策略以及近乎痴迷的勤奋努力,散发魅力,聚拢天才,朝着一个目标前进,最终一起做出世界领先的成就。

在研究室,他和学生们一起投入到图片视觉技术的进步上。其中,2009年他和学生何恺明、当时在微软亚洲研究院的孙剑共同发布的论文《基于暗原色的单一图像去雾技术》拿到CVPR  25 年以来第一篇由亚洲团队产出的最佳论文。

这篇论文简单来说,讲的是他们发现的一个新特征,即在任一普通图像的任意小块内,总有至少一个点的一个原色通道的数值接近于零。基于这个更接近图像本质的发现,对图像的许多处理有了更高效的解决思路。

那一年,汤晓鸥也凭借在模式识别和视频处理方向的成就入选了IEEE Fellow(全球电子工程领域最高荣誉)。而这个论文在技术价值之外,带着那么点浪漫主义的味道。汤晓鸥也曾经把这种浪漫与他追求的科研道路做类比:自然图像已经被研究了几十年,还是能发现全新的图像基础特性。

“就像在暗原色中寻找光明一样。”

到2014年,汤晓鸥带给机器视觉领域一次“奇点时刻”,他的团队当年发布基于原创的GaussianFace人脸识别算法,在相关权威基准评测上达到98.52%的准确率,首次超越人眼识别能力。同年商汤科技成立。这样的学术理想主义的气质也带到了他创办的商汤。

在早年的一次和学术圈老友的私下分享中,他这样解释对创办公司的思考:“即使有了深度学习,计算机视觉还是需要很多基础的创新性研究,才能更好地在实际应用中发挥作用。所以,商汤希望能和大家开展更多的合作。”

2021年12月商汤在港交所上市,最新的财报信息显示,汤晓鸥持有商汤20.63%的股份。

AI今天发展太快,以及大环境的变化,都在让人变得健忘。但某种程度上汤晓鸥当年带领团队带来的突破,其实就像今天语言模型的进步一样,AI第一次突破了人类的水平,成了可以广泛应用的技术。他和商汤的许多尝试对今天处在产业井喷前的新一轮AI依然有很大启发。

而同时,计算机视觉的发展也在突破临界点后来到今天的技术巅峰,并且等来了终于也拥抱了深度学习的语言领域的突破,今天的大模型正在进一步结合视觉的能力,以多模态的形式进化。

但痴迷图像并且一手参与推动图像视觉技术到达今天高度的汤晓鸥,潇洒的生命却永远定格在了人工智能视觉的巅峰上。

“他学识渊博、治学严谨、求真务实、开拓创新,富有家国情怀和战略眼光。他甘为人梯、奖掖后学、矢志创新、勇担重任,把全部精力奉献于计算机科学研究,积极推动原创技术发展,为我国人工智能领域科技事业发展作出了卓越的贡献。”悲痛的讣告中这样写道。

“他二十多年来悉心培养学生,桃李满天下。他们将传承汤晓鸥教授的精神和理念,在发展人工智能的道路上勇往直前。”  

本文来自微信公众号:硅星人Pro(ID:Si-Planet),作者:王兆洋

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
(0)
上一篇 2023年12月18日
下一篇 2023年12月18日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日