数据标注员正在被大厂抛弃

苹果发言人证实了公司的这一决定,称公司将把美国当地的“数据操作标注”团队聚集到奥斯汀园区,团队大多数人现在已经在这个园区工作。数据标注员正逐步向人力成本更低的城市渗透

数据标注主要是针对语音、图像、文本等进行标注,主要通过做标记、标重点、打标签、框对象、做注释等方式对数据集作出标注,再将这些数据集给机器训练和学习。公司很少自己设有标注团队,大多交给第三方数据服务公司或者数据标注团队来做。

一、苹果将关闭 121 人的 AI 标注团队

据彭博社 1 月 14 日报道,据知情人士透露,苹果公司将关闭圣地亚哥一个与人工智能业务相关的 121 人团队,这将导致许多员工面临被解雇的风险。

据悉,该团队在中国、印度、爱尔兰和西班牙设有办事处,负责通过听取对语音服务 Siri 发出的询问,并确定 Siri 是否准确地听到和处理问题来对其进行改进。位于圣地亚哥的团队成员专注改善用户以希伯来语、英语、西班牙语、葡萄牙语、阿拉伯语、法语等使用 Siri 的情况。

知情人士称,这个名为“数据操作标注”的团队上周三被告知,他们将搬迁至奥斯汀,与在得克萨斯州的同一团队合并。对于愿意在 6 月底前搬到奥斯汀的团队成员,可以保留自己的工作职位,苹果也将提供 7000 美元搬家补助。至于选择从苹果离职的人,则可获得至少四周遣散费以及六个月健康保险,原本工作职位会被取消。

苹果发言人证实了公司的这一决定,称公司将把美国当地的“数据操作标注”团队聚集到奥斯汀园区,团队大多数人现在已经在这个园区工作。她补充说,“目前在职的每个人都有机会到奥斯汀继续在苹果的工作。”

但对圣地亚哥的团队成员而言,苹果这一决定令他们讶异。知情人士称,该团队一直在苹果租用的办公室工作,原本将在一月底搬到苹果总部,现在被迫搬到奥斯汀,大多数受影响的员工并不愿意搬到这么远的地方。

苹果告诉这些员工,必须在二月底之前决定是否前往奥斯汀,如果不愿意这么做,会在 4 月 26 日遭到解雇。虽然苹果称他们可以申请转调其他职位,但部分员工认为他们不具工程背景,内部转岗机会恐怕不多。

二、AI 数据标注员正逐步向人力成本更低的城市渗透

数据标注主要是针对语音、图像、文本等进行标注,主要通过做标记、标重点、打标签、框对象、做注释等方式对数据集作出标注,再将这些数据集给机器训练和学习。数据标注的类型主要有:拼音标注、韵律标注、词性标注、音素时间点标注、语音转写、分类标注、打点标注、标框标注、区域标注等等。

在数据标注行业流行着一句话,“有多少智能,就有多少人工”。由于需要标注的数据规模庞大且成本较高,一些互联网巨头及一些 AI 公司很少自己设有标注团队,大多交给第三方数据服务公司或者数据标注团队来做。

在 2019 年以前,苹果公司的“数据操作标注”团队主要由外部承包商组成,后来考虑到隐私安全等问题,苹果解雇了承包商,改由全职员工替代。该团队少数员工已经开始协助苹果采用大型语言模型,这些人正在检查 Siri 潜在问题。

有评论认为,苹果公司选择将 AI 数据标注团队搬迁至奥斯汀,或许与当地的人力成本有关。奥斯汀数据注释服务公司 Alegion 客户成功总监丹尼尔·凯林曾表示,“整个数据标注行业竞争非常激烈,每个公司都想在世界其他地方找到更便宜的劳动力。”

比如,众包平台 Mechanical Turk 上的 20 万名 AI 数据标注员就分布在人力成本低廉的非洲和东南亚。印度甚至涌现了不少数据标注村,他们为美国、欧洲、澳洲和亚洲的 AI 公司服务,Facebook 就曾将部分社交内容标注的工作外包给了一家印度公司。而在中国,上百万名 AI 数据标注员分布在贵州、山西、山东、河南等省份的二三线城市,并逐步向人力成本更低的县城渗透。

三、薪资暴跌,也难逃被 AI 取代?

不少 AI 数据标注员表示,在前几年 AI 数据标注薪资还较为可观——至少与现在相比是这样。

据 Tech 星球报道,一位从事 AI 数据标注的消息者称,在 2017 年,单价高的时候,拉一个 2D 框就有 1 毛多,“我最高的时候干了 10 多个小时,一天就赚了 600 多元”。不过,这不是最高的,另一位标注人员称,早期 2D 拉框的价格最高能达到 5 毛钱。(注:拉框是数据标注中常见的一种操作,标注员根据要求对图片中的物体,如车辆、红路灯、障碍物等画框标注。拉框分为 2D 和 3D,后者的价格会更贵一些。)但这种热度并没有持续多少,现在标注一个图片的单价越来越低,最低的只有 4 分钱。

即便薪资暴跌,AI 数据标注员还是难逃被 AI 取代的命运——毕竟在 AI 面前,无论成本还是效率,人类可以说是毫无优势。

以 ChatGPT 为例,苏黎世大学研究发现,成本上,ChatGPT 平均每个标注成本低于 0.003 美元,比众包平台便宜 20 倍;效率上,在相关性、立场、主题等任务中,ChatGPT 也是以 4:1 的优势“碾压”人类。

来自卡耐基梅隆大学、耶鲁大学和加州大学伯克利分校的一组研究人员更是发现:GPT-4 在数据集标注表现上优于他们雇用的最熟练的众包员工。这一突破为研究人员节约了超过 50 万美元和 2 万个工时。

有评论认为,AI 数据标注员需要做好被 AI 取代的准备。目前在自动驾驶领域,已经有车企开始采用 AI 进行标注。

理想汽车董事长兼 CEO 李想曾在 2023 年 4 月份举行的一场论坛上表示,当理想汽车使用软件 2.0 的大模型,通过训练的方式进行自动化标定,过去需要用一年做的事情,基本上 3 个小时就能完成,效率是人的 1000 倍。

特斯拉也一直在积极推进自动标注的进展,从 2018 年至今,特斯拉的标注经历了 4 个阶段:

  • 第 1 阶段 (2018):只有纯人工的 2 维的图像标注,效率非常低;

  • 第 2 阶段 (2019):开始有 3D label,但是是单趟的人工的;

  • 第 3 阶段 (2020):采用 BEV 空间进行标注,重投影的精度明显降低;

  • 第 4 阶段 (2021):采用多趟重建去进行标注,精度、效率、拓扑关系都达到了极高的水准。

2022 年 6 月,特斯拉裁撤了 200 名为特斯拉标注视频以改进辅助系统的美国员工。目前,特斯拉的自动标注能力大幅改善,标注 10000 个不到 60 秒的视频,大模型只需要运行一周即可,而同样的工作量人工标注却需要几个月的时间。

但也有评论认为,当前 AI 完全取代人工标注还存在一定局限性。苏黎世大学政治学系政策分析教授、论文联合作者之一 Fabrizio Gilardi 表示,“当前认定 ChatGPT 能够取代人类工作者还为时过早。我们的论文只展示出 ChatGPT 在数据标注方面的潜力,但还需要更多研究才能充分探索 ChatGPT 在这一领域中的实际表现。”

参考链接:

https://www.bloomberg.com/news/articles/2024-01-14/apple-to-shutter-121-person-san-diego-ai-team-in-reorganization

https://www.infoq.cn/article/2hkNxGO1L0RamfzS6w0z


本文来自微信公众号:AI前线 (ID:ai-front),作者:凌敏

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年1月15日
Next 2024年1月15日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日