文 | 智能相对论
作者 | 沈浪
由ChatGPT掀起的这股大模型浪潮,从通用领域席卷垂直领域。现阶段,越来越多的行业都在开发专用垂直细分赛道的大模型产品,以加速AI应用的场景化落地进程。
譬如,在电商领域,平台和商家正在利用大模型重塑各个零售环节。如智能导购,可基于消费者的海量消费数据为其提供商品推荐、商品挑选攻略、行程建议等。同时,大模型还能理解海量商品的详情数据,快速生成电商运营需要的商品主图、营销海报、详情页等等。
除此之外,电商垂类大模型在智能客服、供应链优化等场景上也都能基于海量数据的深度学习,快速掌握特定的售前售后话术、供应链订单处理等,全方位革新电商领域的零售模式和消费体验。
随着应用成果的落地,垂直行业大模型的价值正在释放,数字生产力持续提升。而作为人工智能三驾马车之一的数据要素也在这个时刻被提上新的战略高度——不难发现,垂直行业大模型的价值释放离不开海量数据的支持。对应的,上游的AI数据服务商已经针对数据层面提出了新的解决方案。在2023年中国国际服务贸易交易会期间,国内头部AI数据服务厂商云测数据在去年发布的“AI工程化的数据解决方案”基础上全面升级,重点面向垂直行业大模型提出了全生命周期的AI数据解决方案,为大模型应用落地提供关键支撑。
以大模型应用为支点,在大量市场场景需求的撬动下,人工智能产业链上下游的板块正在迎来全新变革,数据层面的升级已经跃然纸上。
大模型应用“封神”的背后,是什么样的AI数据服务在支持?
大模型的爆发加速了人工智能的应用进程,同时也对整个算法产业链带来了新的挑战。在数据层面,过去生产数据、收集数据、加工数据、存储数据等流程就不再适用当前的市场需求,或者说无法高效地、很好地解决新出现的问题。
下游的AI应用融入大模型技术进行全新升级,上游的AI数据服务也同样面临着变革。那么,什么样的AI数据服务才是垂直行业大模型场景下需要的、适用的?
一、标准化
垂直行业大模型技术成果涌现的背后,对应是AI数据需求大幅增长。如何满足大幅增长的场景化数据需求,首要不是盲目扩大数据生产,而是提高AI数据的通用性、易用性,也就是标准化的问题,避免AI数据服务做“无用功”,保证数据的真实、有效、易用是满足垂直行业大模型爆发式增长需求的关键。
譬如,在智能网联汽车行业,《智能网联汽车激光雷达点云数据标注要求及方法》(T/CSAE 213-2021)、《智能网联汽车场景数据图像标注要求与方法》(T/CSAE 212-2021)等团体标准的发布,就为智能网联汽车的研发和测试提供了一套切实可行的场景数据点云标注方法,很好地推动了智能网联汽车的研发和测试。
其中最直观的感受则在于,过去AI数据服务行业各企业对图像标注的要求与方法都各不相同,标注结果文件各异,严重影响后续数据的统一使用。随着相关标准的发布,对标注流程和标注结果的保存形式都进行了规范,进而提升标注数据的通用性。
而在这个过程中,行业TOP地位的厂商往往都是标准的引领者,促使其在接下来的市场规范中获得了更大的话语权和主动权。譬如,以上智能网联汽车场景数据的两大标准,背后都有云测数据的参与。
这家头部AI数据服务商在参与标准制定,为行业攻陷自家经验和技术能力的同时,也更快、更好地掌握了数据标注相关场景的标准化,并应用到自家的产品和解决方案中。其中,基于对行业标准化的理解,云测数据发布的面向垂直行业大模型AI数据解决方案不仅能提供大规模感知数据能力,还能智驾企业减少数据采集周期,提升数据标注效率,降本增效,助力相关企业在数据层面实现研发领跑。
二、工程化
随着大模型技术的融入,人工智能应用进程正持续加速,而在供给端,AI数据服务也面临着数据生产、收集、处理、加工、存储等全生命周期流程的升级,从而才能满足AI数据的大幅度增长需求。简单来说,对应AI工程化的大趋势,AI数据服务也迎来了工程化的深度升级。
这里,云测数据发布的“面向垂直行业大模型AI数据解决方案”呈现出来的结果就是一条相对清晰的路径——通过丰富的数据标注工具、成熟的API集成能力、高效的数据闭环,加上人员管理及项目管理体系以及安全交付软硬件支持的方式,云测数据在保证数据隐私安全的环境下,对垂直行业大模型所需的海量数据实现了全生命周期管理。
更直观来说,对应AI数据服务的各个流程环节,云测数据都能提供对应的工具、技术能力、管理体系,好似成熟的制造生产线一般,一步步地完成数据从无到有的生产,从粗糙到精细的加工等目标,以供下游的垂直行业大模型用于预训练。
以基础的数据标注为例,云测数据目前提供了相对全面的平台工具模块,包括了点云融合跟踪、OCR文字转写、视频标注、语音转写、语音切割、文本判断、文本生成等等,充分满足行业垂直大模型的多模态数据标注需求。
三、场景化
今年以来,市场的焦点从通用大模型转向了垂直行业大模型,其背后是对技术应用落地的追求,同时也释放了一个足以撬动整条人工智能产业链的趋势——场景化。在AI数据服务领域,厂商不再盲目追求广泛的海量数据,而是针对某一特定领域或场景的有效数据。
场景的聚焦是加速垂直行业大模型落地的关键,同时也意味着更高要求的AI数据服务。以智能网联汽车为例,云测数据为其提供的AI数据解决方案目前就包括三部分,分别为基础数据库、定制化数据采集和标注服务以及包括数据采集标注、数据管理的全方位数据工具链。
简单来说,随着场景化趋势的发展,AI数据服务的定制化将越来越深入,不仅要针对某一特定行业或场景提供专业服务,还有可能聚焦某一公司或某一技术模块提供高度定制化数据服务。
同时,基于场景化的AI数据需求也远超常规,随着行业大模型的持续升级,场景的细分也会越来越精细,对应的数据需求更加严格。在与「智能相对论」的交流中,云测数据总经理贾宇航就提到,在智能网联汽车领域,为满足相关场景的丰富性,云测数据可以需要提供包含数据采集、数据生产、平台工具在内的AI数据服务,从而满足相关大模型的预训练需求。
总的来说,对应人工智能产业链上下游的关系,AI数据服务需要服务于垂直行业大模型的需求。现阶段,垂直行业大模型加速落地,需要更多、更有效、更精准的场景数据,AI数据服务的升级有迹可循。
AI数据服务走入“深水区”,头部厂商如何继续保持引领?
市场趋势的变化往往最先被行业TOP厂商所感知和反馈。在AI数据服务领域,云测数据提出“面向垂直行业大模型AI数据解决方案”,站在下半年垂直行业大模型进一步爆发的节点上将继续引领AI数据服务行业。
那么,只是纯粹的进场快,就能实现行业引领吗?显然不是。
结合垂直行业大模型发展的市场需求,云测数据的“面向垂直行业大模型AI数据解决方案”所呈现出来的更关键的价值在于其背后三大思维。
一、聚焦赛道,重视价值回归
垂直行业大模型的爆发式增长让“百模大战”愈演愈烈,各行各业都在做相应的大模型产品,呈现出来的市场机会很多,但是对应的AI数据服务需求也在升级。这就意味着不能用通用思维来做垂直行业大模型的AI数据服务,也很难有能力把所有行业都覆盖。
那么,在这个过程,厂商就需要有所取舍。目前,云测数据“面向垂直行业大模型AI数据服务解决方案”主要落地在零售电商、金融保险、智能网联汽车等领域。而这些都是云测数据从创立之初就聚焦深耕的行业,具备相应的数据积累、行业知识、项目经验以及客户资源等。
在云测数据总经理贾宇航看来,云测数据做垂直行业大模型的AI数据服务,首要的关键点是价值考量。
一方面,要做就先做有积累、有基础的领域——基于这个思路,云测数据在提供场景化数据采集方案的同时,也会在微调任务后对应行业需求提供专业的评测体系和服务,让AI数据服务更有价值。
另一方面,尽管垂直行业大模型很火,但商业化落地程度仍具有局限性。对于云测数据而言,结合过去的服务经验、项目经验筛选有市场需求的领域深耕,是对企业自身发展的负责,避免在过热的市场环境中迷失自我,失去发展价值。
二、纵横升级,强化基本功
垂直行业大模型应用落地是一个纵横能力协同的过程。云测数据总经理贾宇航将这一过程理解为“搭积木”,横向强化底座能力,有一个稳定的基础,纵向深耕场景化,对应不同的行业进行微调、优化,给出专业的解决方案。
具体来看,云测数据基于AI工程化的数据服务升级,在横向上就构建了一套包括数据可视化、扩展工具模块、数据权限管理体系等在内的AI数据服务解决方案,应对大模型预训练本身所需要的数据需求。
纵向上则针对不同的场景,基于行业理解提供专精解决方案,比如对应智能网联汽车研发与测试所需要的车外环境感知、车内智能座舱、人体动作识别等,满足垂直行业大模型的进阶需求。
三、坚守底线,规避行业敏感点
且不说数据领域本身就敏感,作为建立在海量数据之上的垂直行业大模型应用对数据的需求就非常严格,数据安全是一方面,数据的独特性、权威性、有效性则是另一方面。
对此,云测数据作为行业TOP企业始终将数据隐私安全放在业务开展的首位。云测数据总经理贾宇航表示,为了确保垂直行业大模型用于训练的数据合法合规,云测数据都会与企业客户签订数据授权协议。同时,云测数据在过去多年的发展中也会建立具备自由版权的数据集,以帮助更多行业客户去获取更多的高质量数据。此外,云测数据更是一家满足ISO27001和ISO27701标准的AI数据服务厂商,并先后获得ISO9001、ISO20000、CMMI3等相关认证。
结语
AI数据作为生产资料,是推动整个AI行业发展的必要一环,也是人工智能商业化的主要驱动力之一。换句话来说,高质量的数据决定了AI的落地程度也不为过。云测数据总经理贾宇航曾提出类似的观点。
而垂直行业大模型的爆发式增长,也就意味着AI数据需求的澎湃发展。围绕高质量数据为需求,垂直行业大模型的落地才有真正意义的基础。这是AI数据服务厂商的机会,也是人工智能产业突破发展的关键。