文/秋平
近日,第一新声联合天眼查正式发布了《2023年中国AIGC创新企业系列榜》,从基础层、模型层、应用层三个维度展示了生成式AI的产业链布局。其中模型层主要包括通用大模型和垂直大模型(场景/领域/行业大模型)。
目前基础层只有头部”氪金玩家”才有资格入局,不在激烈内卷之列。应用层是长在大模型上的“高岭之花”。而大模型作为生成式AI的基础模型,为其提供强大的语言处理能力和广泛的适用性。根据公开资料显示,截至今年10月份,国内已经发布了238个大模型。“百模大战”正厮杀得异常火热!
第一新声从榜单评选与调研的过程中发现,国内大模型之战正逐渐步入后半场。头部科技企业的发力点开始从通用大模型,转向行业/领域等垂直大模型,开始「向下」扎根。
例如阿里云在10月31日不仅发布了通义千问大模型最新的2.0版本,还推出了八大行业大模型;9月21日,华为云发布了盘古医学大模型;9月19日,百度正式发布国内首个“产业级”医疗AI大模型——灵医大模型。可以说继“AI For Science”之后,大模型已然开始步入“AI For Industries”阶段。
为了深入研究通用大模型和垂直大模型的发展方向和应用效果,第一新声特别采访了3家企业,以各家企业的实践为出发点,全面介绍了通用VS垂直大模型的演进方向。
01 国内大模型超200+,聚焦3大基础应用场景
从年初ChatGPT横空出世至今,引爆了国内外大模型的热情,各路资金蜂拥而至。
据相关媒体报道,目前全球最大的大模型开源社区Hugging Face上的预训练模型数量,已经从此前积累的10万个增长到了超过30万个。不知Open AI当初发布ChatGPT的时候,是否预想到会有如今的盛况。
回归国内市场来看,据公开资料不完全统计显示,截至2023年11月底,国内已经有200+大模型推出,并且在各行各业“落子不断”。从统计数据来看,除了通用大模型外,在金融行业的落地速度最快,有近15%的大模型都是金融垂直大模型。
在大模型厂商类型方面,国内互联网科技公司纷纷入局,包括百度、阿里、腾讯、华为等大厂,科大讯飞、商汤科技、旷视科技等垂直于AI领域的厂商,以及智谱华章、百川智能、达观数据、等大模型初创企业,还有金融、汽车、教育、智能家居、消费电子等垂直行业企业也基于垂直领域人工智能技术和数据积累等能力,推出大模型。(点击《2023年中国AIGC创新企业系列榜》,查看国内通用大模型和垂直大模型企业榜)
值得注意的是,今年上半年,大家关注点主要集中在大模型的参数数量和效果优化上。从下半年开始,将关注重点转向如何实际进行应用,以及企业怎样利用其能力带来革命性提效。第一新声采访到的三家企业,经过半年实践,也逐渐摸索出各具特色的大模型发展道路。
例如沃丰科技于今年4月推出的“原心大模型”,其解决方案吸收了通用大模型能力,并在营销+服务领域的8年经验基础上进行行业知识训练,将通用大模型转变为行业专家,并能依托企业信息搭建专属知识库。目前沃丰科技已成功将该大模型应用于旗下Udesk、GaussMind、ServiceGo、微丰四大产品线。
沃丰科技AI算法专家赵超表示:“大模型对算力和数据有巨大需求,而沃丰科技自成立以来就积累了大量线上文字、文本和语音数据。基于现有数据,公司计划针对行业或特定场景进行模型迭代。为此,团队采用行业开源模型,并利用自己在客服行业积累的数据,进行模型的优化和创新,以更好地满足行业需求,并提高在特定场景中的应用效果。”
在大模型全量参数的迭代中,会遇到一些技巧和语言问题,为此沃丰科技采取了两种训练策略。一是固定一部分参数,只对其余参数进行迭代。二是在通用大模型基础上,进行小模型迭代。
云从科技在5月份正式推出“从容大模型”,最大的特色就是云从科技具有多模态系列大模型,并具有对行业大模型的调整能力,可以根据行业场景需求去帮助客户部署模型,实现性价比最优。7月份云从科技携手华为正式联合发布了“从容大模型训推一体化解决方案”。该方案基于云从从容大模型算法及工具,使得用户可以轻松地训练、构建和管理自己的大模型。
对于国内市场的繁荣现象及公司在大模型方面的规划,云从科技副总裁张立向第一新声表示:“实际上,公司两年前就已经在大模型领域进行技术储备。由于此前芯片和算力没有达到高水准,导致大模型无法充分发挥其效能和效率。去年以英伟达为主导的GPU芯片性能有了显著提升,尤其是并行计算能力,这使得大模型的训练更具产业化,得以成为可能,这才推动了今年大模型产业和市场的蓬勃发展。”
达观数据推出的“曹植”大模型是国内首批垂直行业专用、自主可控的国产版GPT大语言模型,具备长文本、垂直化和多语言特性,擅长长文档写作、审核、翻译等。
“一直以来,达观数据都专注于ToB领域,在金融和制造等行业积累了深厚的专业经验。我们采取的落地路线是将大模型引入原有产品中,为客户提供更有价值的服务。例如,达观的智能文本处理平台IDPS以往主要偏向文本抽取,需要标注、训练、调优等复杂步骤才能实现效果。而现在通过大模型能够实现无标注的自动抽取,显著降低了交付成本。让企业真正实现了降本增效。”达观数据CTO纪达麒说道。
第一新声通过与三家受访企业交流及此前调研发现,目前企业对大模型常见的基础应用场景有以下三个:第一个,企业想要利用大模型直接生成文章、图片、设计等,那么用GPT或者其他开源大模型稍微Fine-tune(微调)一下就可以直接使用,后续的工作也主要是进行前端页面设计,不需要进行过多的模型迭代。
第二个,企业希望大模型在提供服务时体现出企业属性,比如回答与企业相关的问题。这种情况下也很难为每个企业快速迭代出一个专属模型,再加上企业的情况随时都在变化,对应模型也需要不断调整。因此,将企业知识库和大模型进行结合是一种可行的方案。
当然也有企业会对自己的知识库有保密需求,不愿意将其提供给外部模型。在这种情况下,也可以基于自己训练的模型进行部署。部署方式通常有两种:一种是在企业自有模型的基础上,使用企业知识库进行迭代,另一种是先通过RAG(RAG:Retrieval-Augmented Generation检索增强生成)加强大模型理解能力,再结合知识库。RAG最直接的优势就是能够让大模型利用自身的逻辑推导能力,去理解企业私有数据,实现问答能力的拓展。
第三个,数据分析亦是一些企业常见场景。传统的报表配置方式复杂,而且当报表众多时,寻找特定报表很费时。通过大模型的自然交互方式,用户可以直接提问,实现智能化的数据查询。这种交互式的数据分析方式直观高效,用户可以快速获得所需信息,大大提升了使用体验。
02 通用VS垂直:各有千秋、互补关系
通用大模型和垂直大模型各有其独特的能力,它们之间是一种互补关系。
因为通用大模型具有强大的语言理解能力,能够拓宽应用范围的广度,而垂直大模型则瞄准特定行业或需求,在精度和深度上更能满足实际要求。这两者不是对立面,而是相互支持、协同发展的关系。未来,两类大模型将会共生,成为赋能千行百业的关键。
对于这个观点,纪达麒也表示同意,“通用大模型和垂直大模型针对或解决问题的目标不尽相同,通用大模型需要具备更强的泛化性,而垂直大模型则必须要在垂直行业内的应用中保持高准确度。”
提及通用大模型和垂直大模型的落地空间,他认为有一个核心不同是在客户需求方面,不同层次和规模的客户对大模型的要求有所差异。例如在ToC端或中小型B端企业中,客户对模型的效果要求较低,但更看重成本的控制。因此,他们可能会选择使用通用大模型来解决部分问题,以期用较低的成本实现水准以上的效果。
然而,对于一些大型B端客户来说,提升效果能力很大程度能对他们的业务带来重大影响和价值,因此他们愿意投入更多的成本。这些客户可能会选择训练垂直大模型,或者利用像达观数据这样的专业垂直大模型服务,以获得更优秀的效果。在这种情况下,客户的关注点不仅在于成本,更在于如何实现最佳业务效果。
因此,在大模型的应用中,灵活选择适合特定业务场景的模型策略是非常重要的。
赵超也表示,通用大模型迭代成本较高,需要大量的算力支持。相反,垂直大模型的决策成本较低,所需的算力较小。但垂直大模型根源始终在通用大模型,通常都是基于通用大模型采用SFT监督微调(Supervised Fine-Tun-ing)等方式训练而来。并且,如果通用模型的基础能力较强,那么垂直模型的调优成本也就相对较低。
在验证算法和策略时,由于垂直大模型可以在较短的时间内进行迭代,验证效果,因此企业通常会优先在垂直模型上进行验证和调优验证完成后,再将经验应用到通用模型上,从而提升通用模型的能力。待通用模型得到有效提升后,再对行业模型进行迭代。是一个螺旋式的循环过程,促进垂直模型和通用模型相互借鉴、相互补充,而不是往单一排斥方向的发展。
张立表示,从行业应用角度来说,通用大模型不是一个产品,而是一种能力。企业想要购买这种能力,通常要满足三个条件。“第一,要有充足的资金储备。第二,要有所在行业构建专属模型的数据和Know- how积累。第三,要有相应的技术能力。了解大模型技术的底层原理,以及如何训练出符合自身需求的模型这种能力的灵活性使得客户可以更好地利用大模型技术,满足其特定领域的需求。”
另外,张立也强调,大模型的落地应用不可能是两头担子一头热,取决于两端。一方面供应侧要具备垂直行业落地大模型的积累和能力;另一方面,需求方要想清楚自己需要用大模型具体解决哪些问题,达到什么目标。
不过,在赵超看来,定制模型在垂直行业中可能具有更高的价值,主要表现在两个方面:一是垂直行业模型可以更好地满足企业特定需求,为企业创造更多的商业机会。二是使用不同大模型会带来显著的成本差异。因此,企业可以选择在大模型上进行优化训练,将数十亿参数的大模型压缩到几亿参数规模的垂直模型。
“一种可行的解决方案是,利用大模型进行数据标注,然后用较小规模的模型进行训练。这样既可以为企业提供垂直模型的优良效果,又可以降低硬件资源的使用门槛,从而在一定程度上减轻企业的成本负担。通过精细调整模型参数规模,既可以满足特定行业的需求,又可以在资源利用上实现更高的经济效率。这种策略有助于为企业提供更灵活、可持续的模型应用方案。”赵超说道。
未来像联合利华、麦当劳、可口可乐等巨头企业大概率都会训练出专属大模型。赵超认为,虽然从外部看来这是企业私有大模型,但其实一种训练方法是利用企业自有大量数据训练出一个完整模型。另一种方法是采用向量数据库(vector database)策略,将内部数据转换为向量,再对向量进行处理,得到一个较小的模型,与大模型结合使用。这种方法可以达到单独训练模型的效果,而且成本也较低。“从客户使用侧来说,输出的模型的带有企业特征和特色,但从技术角度,本质就是大模型加小模型的叠加使用。”
他还认为,未来这种“大模型+小模型”的方式在实际应用过程中,可能会很大程度上成为主流落地方式。因为对基础模型进行频繁迭代是困难的,而且需要高算力。除非是为了技术研究,否则购买大量算力很大可能会造成资源浪费,而且收益不明显。
03 如何突破算力、数据、算法三大门槛?
大模型的应用离不开算力、数据和算法的支持。这意味着中小企业或算力不足的企业,要想应用大模型门槛会很高。
一是在算力方面,企业可以尝试在不增加硬件成本的情况下,增加迭代次数,提高模型的收敛速度。同时,也可以通过将浮点数转换为定点数,以及对大规模矩阵运算进行预处理,来降低计算复杂度。这些方法都可以有效地节省算力资源,提高模型的训练效率和整体性能。事实上,学术界已经在矩阵运算方面取得了一些突破,例如目前学术界提出了一种针对超大矩阵的快速计算方法,比传统的行列计算方式快了几十倍。
对于算力方面,赵超的观点是,一方面,算力不足的企业可以考虑用小规模算力做实验,验证大模型的应用效果。这也是企业内部和学术界要思考的优化方向之一。另一方面,Few-shot Learning(小样本学习)和Zero-Shot Learning(零样本学习)是目前备受欢迎的大模型训练技术。它们可以在数据不足的情况下展现出强大的学习和推理能力。数据不足的企业通过这种方法可以有效地应用大模型,优化性能。利用这两种方法,可以持续优化和创新性促进大模型技术的广泛应用。
二是在算法方面,也需要探索更适合大模型的结构和方法。目前,大多数大模型都是基于谷歌提出的Transformer模型构建的。然而,Transformer模型并不一定就是最优的选择。例如,一些研究者在Transformer模型的基础上引入了ResNet(深度残差网络)等其他结构,并在图像领域取得了不错的效果。因此,对于算法的创新和优化仍然是一个有前景的方向。
三是在数据方面,需要考虑如何提高数据的质量和适用性。随着互联网数据的爆炸式增长,数据的类型和形式也变得更加多样和复杂。对于非结构化数据,需要预先对其进行结构化处理,以便于模型的学习和理解。同时,还要对数据进行清洗和筛选,去除其中的噪声和无用信息。
以上这些路径都可以有效地提高数据的有效性和可靠性,从而提高模型的泛化能力和适应能力。
针对大模型的未来发展,张立的观点是,大模型技术的发展会从研发驱动转向生态驱动,这是一个必然的趋势。客户对于大模型的需求会越来越复杂,大模型厂商无法直接解决客户所有问题,也不可能对所有行业的know- how都有全面和深刻的掌握。因此大模型的落地应用需要借助各个行业内的专业信息化服务公司协同支持。
“这种合作模式能够更有效地应对不同领域的专业需求,让大模型的应用更快速和深入地渗透到各个产业链中。而且通过与信息化公司的密切合作,大模型厂商还能够构建起生态系统,让大模型的发展更加全面和可持续。”张立说道。
04 大模型落地两大难题
尽管大模型的发展目前非常活跃和热闹,但在实际落地方面仍然存在两大难点。
难点一:如何找到合适的应用场景?
纪达麒表示,要想让大模型技术真正落地,不仅要依靠大模型本身,还要考虑中间实施过程和到达最后一公里的路径,即设计出合适的产品形态,选择最优的性价比,控制好机器资源成本,最终找到最佳的落地效果。因此,需要有既懂大模型又了解行业的专业人士,来共同解决这个问题。
在ToB行业化中,一个主要问题是监管难度的提高。在ToC端,也要面对备案等法规要求。传统互联网时代,能够以相对容易地方式审核文本内容,及时发现和处理一些涉及意识形态等有问题的内容。但是,大模型让监管难度显著增加。因此在落地过程中,如何进行有效监管成为一个亟待解决的问题。否则会面临滥用、不当使用或者其他潜在的法律问题。在解决监管问题的同时,还需要思考如何让更多的人从大模型的应用中受益。一言以蔽之,如何保证合理监管和推动社会效益之间的平衡是一个全行业都需要认真思考和解决的关键问题。
“达观数据的工程师团队在客户提供数据后,会根据具体情况进行处理,做到这一步其实还算顺利。但更难的问题是,如何结合大模型,充分发挥数据的价值,赋能企业实现更明确的业务目标。这就需要制定清晰的业务策略,明确产品的功能和特性,以及确保整个过程能够有效地满足客户的需求。”纪达麒强调道。
因此,当前所有企业面临的挑战是对大模型应用的战略性思考,以及将这些思考转化为具体的产品设计和实施步骤。要解决这一挑战,需要综合运用数据科学、业务洞察和技术专业知识,形成一个全面而可行的解决方案。最终,通过深度战略规划和清晰的产品设计,更好地发挥数据和大模型的潜力,实现更有针对性和有效的业务成果。
如今,人们的关注点不仅仅是如何开发出优秀的大型模型,更多的是如何更好地应用这些模型。这就需要考虑解决方案的层面,特别是用户的体验层面,而不是只局限于像OpenAI聊天能力这样的应用,或者只是解决类似于搜索引擎的问题。
当前和未来的趋势也表明,人们希望在更多场景中应用人工智能,并把它作为底层平台。这就需要企业进行从0 到 1 的创新,不断找到一些适合落地并能够大规模推广的场景,从而有更多的落地灵感和方法论,增强大家对这一领域的信心。我相信明年大模型的落地一定会非常多。
难点二:战略规划和软硬件设施很难完美兼容。
张立解释造成该难点因素有五个方面:一是客户的目标不明确,导致无法达到预期的效果。
二是很多客户对大模型的认识不足,误以为这是一个成熟的产品,买来就可以开箱即用。
三是即使前两个问题都解决了,为客户制定了详细的落地计划,分阶段地推进大模型在客户企业内的应用。但是,在这么长的一段时间内,谁也无法保证,客户的战略目标是否会发生变化?这就涉及到客户在大模型上的战略布局的稳定性和持续性。
四是大模型的落地必须是一个双向的过程。客户是主角,技术公司是“教练”定位,负责陪伴和指导客户前进。但由于使用大模型对企业技术能力要求比较高,而很多客户技术部门的信息化能力都很传统,最终导致客户完全依赖技术公司,让技术公司从“教练”变成了主角,发生关系错位。这是严重有问题的,因为技术公司的目标是赋能多个产业,不能只专注于某一个客户。
五是大模型在垂类市场的应用,不仅仅考虑模型能力,还要考虑硬件配置但不可能让客户把原来的硬件都彻底换掉,颠覆其原有的系统,更重要的是考虑和原有系统的整合。这需要有工程化和集成的能力,帮助客户大模型技术和已有资源合理整合起来。这就涉及到原来的系统、软件、数据库和硬件等的兼容性问题。
面对上述的难题,纪达麒的观点是人们要达成两点共识。首先,未来可能只有少数几家厂商具备高质量的提供底层通用大模型的能力,而垂直大模型和其产业化应用将迎来非常多的机会和竞争。未来企业内部,可能会同时将多个大模型结合起来,一起来去解决企业内部的各种问题。其次,企业的目标是利用AI 来解决问题,而不是单纯地和 AI 结合。因此,企业需要思考如何让人和机器更好地协作,且以解决问题为出发点。不是为了用大模型而追捧大模型。
张立也持同样立场,她认为在利用大模型解决根本性问题时,需着眼于技术和产业化的有效结合。大模型厂商关注的焦点也应当是构建基于模型的应用或产品,以满足客户的实际需求,而不是为了推广大模型而用大模型。若发现从容大模型无法胜任任务,云从科技可以转向使用其他大模型,甚至包括开源模型。大家的目标始终是以协同之力解决客户所面临的实际问题。
“过去很多应用从用户侧或许并不尽如人意,而引入大型模型则可以使其更加出色,更深刻理解用户需求,实现更高程度的自动化。企业今天不是要颠覆原来所有应用,而是在其基础上增添大型模型的强大能力。通过云化降低成本或提高训练效率,并迅速将这一技术产业化,使更多客户以更为合理的成本享受大型模型的优势。”张立补充道,
在AI落地的过程中,大型模型应该是人类的伙伴,而非替代者。