大模型人才高度稀缺，“选择”比“培养”更重要？

2023年9月28日 22:09 • 未来科技

方汉：我们从2020年开始做大模型训练，当时市面上做大模型的人才非常少，走BERT路线的人比较多，走GPT路线的人比较少，所以我们当时选择自己培养大模型人才。

培养方式就是让有算法背景的人才学习模型训练方向，那么在招聘时就要考虑选择对机器学习、深度学习熟悉的人才，同时有较强的自驱力和学习速度比较快的人才、有算法背景的人才，我们原来有一些人才研究的是CNN等技术方向，现在会更多地转向GPT训练方向。

近期，“百模大战”愈演愈烈。在大模型热潮中，“人才”成为各大科技公司、创业团队和研究机构激烈争夺的焦点。然而，目前AIGC领域的尖端人才，仍存在较大缺口。

到底招募什么类型人才，有利于模型研发？去哪里招募大模型人才？如何培养大模型研发人才？

访谈人物介绍：方汉，昆仑万维董事长兼CEO，中文Linux创始人之一，领导开发了国内第一款P2P下载软件DUDU加速器，2008年加入昆仑万维。

精彩观点：

1~2年内，算法人才的短缺情况会得到极大的缓解。
我理解的人才创新意识，指的是在技术和工程角度如何创新性地解决问题、提高指标。
“选择”比“培养”更重要，自主学习比师父带徒弟更加重要。
在大模型这样的全新领域，刚毕业的博士生经过半年时间的培养，也能成为领域专家。
从供给角度看，目前大模型人才处于不足的阶段，3-5年后情况会极大地缓解。
从宏观角度来看，与传统行业相比，大模型人才培养难题在于大学目前的算力不够。
基于AI和大模型，在应用层面做出全新商业模式的企业将获得最大的红利。

大模型人才如何定义？

量子位智库：你们是如何划分大模型人才的？

方汉：我认为模型训练应该分成两大块，训练推断与应用开发。按照模型训练的环节，我们又把人才分为算法侧人才、架构侧人才以及应用开发侧人才，核心算法人才又细分为预训练、数据处理、微调推断优化等等。

量子位智库：算法人才、架构人才、应用开发人才，您觉得哪类人才最为稀缺？而且未来很长一段时间都有可能很稀缺。

方汉：目前看，最稀缺的肯定是核心算法人才，但供需情况会迅速得到缓解。因为这里有一个很有意思的现象，目前各个大学算力是严重不足的，大模型相关方向又是当下热点，能转向这个研究领域的人才特别多，比如NLP，所有做NLP的人才全在转向大模型。

所以，我个人看法是1~2年内，算法人才的短缺情况会得到极大缓解，因为拿到高薪的算法人才特别多，我觉得中国在人才配比上还是很市场化的。

量子位智库：那在招揽人才的时候，是比较看重人才本身哪些素质？

方汉：在您所说的学术成果、实践经验、学历背景和创新意识这几个方面，我们优先考虑的是实践经验和创新意识：首先，大模型训练本质上是个工程问题，那么实践经验肯定是非常重要的。其次，大模型是创新项目，因为所有大模型企业都在齐头并进地去竞争，如果没有创新意识，很难领先于其他人的，因为这是全新的工程方向。

量子位智库：您是如何看待这种创新意识？

方汉：我理解的创新与大众定义的创新不太一样，以往更多是算法创新。我所说的创新，首先是紧跟大模型的前沿进展，全球范围内研究大模型训练的人非常多，这个方向进展很快，每天有几百篇新论文出来，在各个方向、领域做改进。第二个是能够从实际需求出发，用新方法来解决在工程上遇到的问题，这里的创新更关注的是如何在技术和工程角度创新地解决问题、提高指标。

量子位智库：您觉得是否可以通过学术成果、专利成果等来判断大模型人才的创新意识？

方汉：我认为根据专利成果来判断人才的创新意识是不太合理的。OpenAI并没有那么重视人才在申请专利方面的表现，最好的创新其实依赖的是内部的经验积累，仅从专利角度来判断是不太合理的。

然而，学术成果可以作为比较重要的判断依据。比如说第一个做出Vicuna模型，第一个做出ControlNet的人都是博士生，从这个角度来看学术成果可以作为一定参考。

但是在实际操作过程中，除了发论文的大创新以外，在工程上还要有无数的小创新来实现。所以，创新意识还是要根据人才在实践中解决问题的速度和交付能力来判断。

量子位智库：你们的大模型从1.0升级到3.5阶段，在不同的阶段会注重配置哪些领域的人才呢？

方汉：在早期阶段我们确实是更需要对大模型底层架构、对CNN、对Transformer更加熟悉的算法人才，当然还包括数据清洗、数据处理这些方面的数据科学人才；等到大模型逐渐成熟需要转向多模态，这时就需要一批做计算机视觉的人才；如果要对外发布大模型，就需要安全审核的人才。

量子位智库：你们如何培养自有的大模型人才？

方汉：我们从2020年开始做大模型训练，当时市面上做大模型的人才非常少，走BERT路线的人比较多，走GPT路线的人比较少，所以我们当时选择自己培养大模型人才。

培养方式就是让有算法背景的人才学习模型训练方向，那么在招聘时就要考虑选择对机器学习、深度学习熟悉的人才，同时有较强的自驱力和学习速度比较快的人才、有算法背景的人才，我们原来有一些人才研究的是CNN等技术方向，现在会更多地转向GPT训练方向。

量子位智库：您如何看待“大牛带小牛”的这种培养模式？

方汉：每个技术驱动的企业其实都会选择“大牛带小牛”的培养方式，但选择人才比培养人才更重要，自主学习比师傅带徒弟更加重要，所以在招聘时我们也十分看重人才的自主学习能力。

对于传统技术方向，比如Java，需要依赖丰富的经验，应届毕业生需要较长的培养周期，才能成长为领域专家。但大模型训练是新兴领域，工业界的积累并不比学术界深厚太多，我们比学术界多的是算力，在算法层面其实我们并不比高校领先太多。

量子位智库：那应届毕业人才如果成长为大模型专家，需要多长时间？

方汉：有大量在读博士生能够发表非常前沿的大模型论文，也看得出来很多大模型创新论文是博二、博三学生发的。我们在学校里找到来了就能上手的人才，花几个月就能成长为领域专家。

我们的想法是，从应届毕业的博士生中选择在校期间就表现出创新能力和技术视野的人才，我们可以用较短的时间来培养“小牛”，就能成为您说的“大牛”。

量子位智库：通过几个月到一年的时间，这样的应届博士生就可以成为领域“大牛”，我理解您所指的“大牛”他们是具备核心研发的能力。

方汉：对，我们给年轻人的机会非常多。其实OpenAI做GPT训练的，可能才几十人，其中有一大批是刚毕业没几年的人才。我觉得国内大模型团队基本都是这样，这是一个全新的领域，新人的机会特别大。刚毕业的博士生干了半年左右，成为领域技术专家是没问题的，但管理能力肯定是有欠缺的。这个技术领域很新，大家都在同一个起跑线上向前跑，应届生不一定有劣势。

量子位智库：您说的应届人才大多是自然语言处理方向的吗？具体会细分到哪些领域？

方汉：也不完全是自然语言处理，我觉得在大模型全生命阶段，除了数据处理需要依赖工程积累，在预训练、RLHF、SFT、算子优化等方面，在学术上都有相应研究方向，所以我认为他们具备了70%~80%的大模型研发训练的能力。

研究机器学习、强化学习、深度学习的人才，转向大模型都非常容易。而且由于现在有很多开源模型，学术界基于开源模型做论文研究的人也很多，所以我不觉得高校人才存在分工上的绝对差距。

量子位智库：您觉得目前大模型人才市场整体发展如何？

方汉：我觉得大模型人才整体处于一个高度稀缺的状态，那么做存量的人会多一些。但是随着大模型从业者越来越多，分工也会越来越细，这是很自然的分化过程。任何一个新技术的发展过程都是这样，从早期的全栈工程师逐渐成为组长级、总监级的leader，然后组员的技术方向分化就会更明显。

量子位智库：你们招的人才大部分是来自高校，还是来自这个产业更多？

方汉：我们目前需要有实践积累的人才，就会更多选择来自产业的人才，他们有丰富的工程经验。但也会招聘应届毕业人才做储备，所以校招也比较多，校招跟社招的比率差不多1:5的关系。

量子位智库：您觉得目前的这个大模型人才发展处于一个什么阶段？

方汉：从人才整体的学术成果数量来看，全世界AI论文发表数排在第一的是中国，排在第二的是美国，论文数目是美国大于中国。

我认为在人才的能力要素方面，不同经验的人才都是大模型所需要的，刚毕业的应届储备人才、领域专家和领军人物这三者应该都有。但从供给角度来看，目前就是处于不足的阶段，大概3~5年后供给情况会极大地缓解，因为从设置科目到学生毕业也需要5年时间。

量子位智库：您觉得人才培养可以从哪些方面进行提升呢？

方汉：我主要从两个来分享吧，企业角度和宏观角度。

从企业角度来看，人才参与工程项目，成长就更快一些，这是非常明显且实际的方式。对人才更有耐心的大企业，人才做的事情会更专业，但小公司大模型团队的人才成长得更全面，大模型全栈的能力要素都要具备。

从宏观角度来看，和其他传统行业相比，大模型人才培养难题在于大学目前的算力不够，导致学校很难培养出架构人才，这些人才只能去企业进行培训。这是全世界所有大学面临的困境，在国家级算力共享给大学之后，我们相信这种情况会得到缓解。

量子位智库：也就是更多依赖于产、学、研、策的联动来培养大模型的人才。

方汉：我觉得要尽量在学校里提供与企业一样的硬件条件，否则在学校里学到的东西肯定是相对有限的。

量子位智库：那从您的角度来看，大模型行业整体未来会有什么样的发展趋势？

方汉：我觉得不应该叫大模型行业，应该是整个AI行业，AI行业遇到的机会应该是不亚于互联网和移动互联网。我对AI行业的发展趋势是非常看好的，AI将深刻改变整个互联网，以及整个人类生活都会受到极大的冲击和改变，整个行业会发生方向性的转变。

量子位智库：基于这样的趋势，您觉得什么样的大模型人才会更受企业的青睐？

方汉：首先，现在已经形成“百模大战”的情况，大家都在做大模型底座，将来大模型底座这一块肯定会收缩到几家大厂商来提供，更多企业应该处在用大模型做应用的位置，那么我认为基于大模型应用开发的人才会越来越多。

而做大模型底层训练、优化算法和架构的人才会向大厂或是大模型团队去汇集，但我们认为最大的巨头不一定是大模型企业本身，而是基于大模型做出很强应用的这些企业。这些企业一旦它长大了，也会建立自己的大模型。

我们认为“应用为王”，就是指在应用上基于AI和大模型，做出全新商业模式的企业将获得最大的红利。那么我们认为在未来十年一定有像字节，美团、滴滴这样的新形态巨头公司出现，而且一定是从0到100长出来的，今年或者明年创立的公司应该都有这个可能性和机会。

本文来自微信公众号：量子位（ID：QbitAI），作者：量子位智库

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

中型互联网平台的命运：要么转型，要么消亡？

Previous 2023年9月28日

为什么一把椅子会有百亿市场？

Next 2023年9月28日

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

大模型人才高度稀缺，“选择”比“培养”更重要？

相关推荐