文|白 鸽
编|王一粟
今年世界人工智能大会上,大模型如何走向深度应用成为重要议题。
但在大模型迈向深度应用的过程中,相比于算力的稀缺,“真正的问题是缺数据,无论是在通用技术领域,还是在专业领域,数据才是决定AI能力的上限。”蚂蚁集团副总裁兼首席技术安全官、蚂蚁密算董事长韦韬表示。
毕竟,想要解决真正的行业、专业应用问题,都依赖于关键数据能不能按需获得。但想要获取高质量数据却并不是一件容易的事情,尤其是在具体的某个行业场景中。
就拿金融行业来说,此前一位智谱AI技术专家对光锥智能表示,金融行业非常注重数据的隐私性,智谱AI在服务银行客户时,数据只能在银行自己内部使用,不允许拿到外部进行大模型训练。
背后原因在于,数据价值越高,风险越大,毕竟数据本身复制成本非常低,明文数据很容易造成二次分发,从而引发数据泄漏问题。
因此,高质量的行业数据难以流通起来,这也在很大程度上限制了行业大模型的迭代更新和应用落地。那么,有什么方法能够在保证行业数据安全的情况下,能够让数据大规模流通起来?
此背景下,行业开始探索平衡数据流通与隐私安全的技术路径。
韦韬认为,密算会成为数据可信流通的新算力,只有让数据以密态方式流通,才能发挥正向价值、控制负向风险,“无论是对AI进一步发展的支撑,还是对整个数据行业支撑,我们认为行业将会从通算、智算走向密算。”
行业大模型落地,密算为数据流通提供安全通道
“我们一定要做大、做强行业大模型。”中国电信大模型首席专家、大模型团队负责人刘敬谦在世界人工智能大会上说,一方面,借助行业大模型可以拉起我国整个大模型技术的发展,另一方面,行业也能够为大模型的应用提供内生需求场景。
不过,行业大模型发展背后的关键,则在于行业数据的供给。
但当前行业数据的供给方、大模型厂商,以及用户之间,却很难建立相互信任的体系。企业担心数据对外泄露,大模型厂商担心模型资产安全,用户担心个人数据和隐私泄漏的风险。
这也就导致AI大模型在跨系统、跨行业的应用中,遇到了数据整合与流通的难题。
现阶段,在大模型落地方案中,通过自有数据开展微调、RAG或智能体应用,并提升自有数据检索和理解能力的大模型还十分初级,距真正赋能行业的大模型还相距甚远。
“密态计算,是大模型产业深入应用的必经之路。”蚂蚁密算CEO王磊说。
为什么密态计算能够解决数据流转过程中的安全问题?
数据密态流通的本质是通过密码学,把访问边界从传统的物理边界变成密钥管控的虚拟数字空间边界,即使数据离开了数据的运维域以后,依然能够进行有效管控。
此前,王磊曾解释道,密态计算的本质逻辑,是机构一将数据通过密态环境给到机构二,在这个密态环境中,机构二能够使用这部分数据,但并不能够看到这些数据。也就是业界经常提的,“数据可用,不可见。” 机构二只能够按照双方约定方式使用数据,且其加工后的数据也只能存放到密态环境中,只有双方经严格的数据确权后,数据衍生产品才能够以明文的方式析出。
这不仅可以确保数据在流通过程中不能被窥探和复制,也能够确保数据在流通过程中的行为可控。也能够实现对相关信息进行保存并进行溯源,防止抵赖。
这相较于传统的数据安全技术,已经发生了根本性的变化,“传统数据安全技术是保障运维域内的数据安全,而密态计算技术核心保障的是域外数据的安全,是外循环的数据安全。”韦韬解释道。
实际上,密态计算是把对人的信任转移到对技术的信任,实现数据跨主体流通过程中跨域管控的问题。通过利用密态计算技术,实现数据密态流转,做到数据“可用不可见,可控可计量”。
现阶段,大模型行业虽然发展的“热火朝天”,但在具体应用层面,却很难从可用走向专业应用,背后的关键,就在于高质量行业数据的稀缺。而想要高质量的行业数据大规模可信流通,密态计算是关键。但只有标准化的技术和产品,才能够加速行业应用。
密算产品化、云化,加速用起来
任何新技术和产品,都需要经过小规模试点后,才能迈向大规模应用阶段,密算技术同样如此。
事实上,此前业内也有使用密码技术进行数据安全防护,但单纯使用密码学技术成本太高,导致难以大规模应用。同时,当前由数据泄漏造成的安全成本增加问题正日益严重。
据IBM《2023年数据报告》显示,2023年数据泄露的全球平均成本上升至445万美元,达到历史新高,比2022年的435万美元增加了2.3%,比2020年的386万美元增加了15.3%。
因此,如何平衡安全技术的成本和数据价值,让密态技术能够更好的为数据流通做底层安全保障,则成为推动数据大规模流转的关键。
韦韬表示,蚂蚁通过可信芯片和机密计算技术来协同保障,从而大幅度降低成本,实现低成本密态计算,形成行业里规模化应用方案。
蚂蚁集团在WAIC上发布的“隐语 Cloud” 大模型密算平台,就是蚂蚁密算科技贯彻这一技术路线而发布的首款商业化产品。该平台通过软硬件结合的可信隐私计算技术,在大模型托管和大模型推理等环节实现数据密态流转,保护模型资产、数据安全和用户隐私。
“隐语Cloud”大模型密算平台首批推出两大服务,分别为大模型密态托管和大模型密态推理。
大模型密态托管,指模型提供方可以将模型加密后托管在平台上,一键完成云上密态部署,保护模型资产不被泄漏和盗用;大模型密态推理,是指数据以密态形式完成推理,保护用户交互时的数据安全、商业机密等。
“整个密态访问流程非常轻量化,远程认证,密钥交换和加密操作都是在浏览器中完成,和明文大模型的访问体感一致。用户如果担心其安全性,也可以自己打开浏览器侧的代码,来确认整个访问过程的安全性。”王磊说。
同时,该平台支持GPU在可信执行环境下进行计算,使得大模型推理在密态形式下的响应时间和使用效率与明文大模型接近,实现大规模商业可用。
在安全保障上,该产品利用内存、磁盘加密等方法,实现用户访问的端到端加密和托管模型的跨域访问控制。
技术产品化可以让用户先用起来,使数据小规模流动,但想要数据真正大规模流动,王磊认为:“用‘云’的方式才会实现数据的规模化流动,并把安全技术的成本降下来。”
现阶段有很多机构,数据在私域内,又希望用大模型,所以把大模型私有化部署到域内来。但私有化部署会带来的两个问题,一个是大模型更新迭代非常快,企业很难快速部署最新升级的大模型产品,导致模型的效果受到影响。更重要的是,私有化部署的成本很高,很难大规模普及。
王磊认为:“隐私计算是保障用户数据安全和隐私的重要技术,但是它成本很高,之前只有一些非常有钱的机构才能够用的起,但通过‘云’的方式是能降成本的。”
今年5月,蚂蚁集团对外透露,在今年内发布 “隐语Cloud”密态计算的相关产品和服务,让企业像购买云服务一样购买隐私计算服务,支持数据跨云跨端可信流通。此次隐语Cloud大模型密算平台,也会提供公有云和专有云交付方案,支持市面上主流的通用大模型。
以公有云为例,提供PaaS层服务,模型提供者可以一键加密上传自己的大模型,10分钟即可完成高可用推理服务的发布。用户通过网页就可以实现对模型的加密访问,无需感知到复杂的加密过程,即开即得。
“我们希望通过密算技术给用户非常强的安全保障,解决“不敢、不愿”的问题,再通过密算云服务解决“不会”的问题。”韦韬表示,“同时,还希望推动行业把整个链路走通,让大家能够敢而且愿意把高价值的数据流通起来。”
当前,密算技术已准备好,而接下来则是要迈入真正的商业化落地应用,毕竟技术只有商业化落地,才能够可持续地产生价值。
商业化的成功,需重塑隐私计算的市场格局
蚂蚁密算和传统隐私计算的最大区别,在于重新树立了隐私计算的市场格局。
从技术的角度来讲,近年来虽然行业中一直对隐私计算进行了相关技术研发和应用,但在韦韬看来,很多隐私计算技术包括现在用的最多的是PSI(隐私计算求交),应用效果非常好,但非常浅,只是其中一个环节,并没有实现数据流转全链路保障。
而数据就像自来水,局部流通的价值远远小于全域流通。
技术的迭代更新能够逐步降低应用成本,但想要真正实现大规模商业化,本质上还需要数据产业链条上的各方参与者,从原本的安全成本投入思维,转向利益分润的模式。
“行业数据的提供方,是希望能够通过数据进行变现,变现的最好模式就是基于行业大模型能够持续的提供产品价值,来获得收入;而模型的提供方,也是希望能够持续获得分润,而不是一次性的售卖。”王磊表示。
事实上,在原本隐私计算的商业模式中,主要是通过卖软件技术,以高成本的项目交付方式进行。但因为安装环境,使用方法等各种问题,仅仅提供软件并没法保证数据流通过程的安全性,同时这种高成本低利润的商业模式,也导致隐私计算技术提供商无法在安全技术上持续投入。
“但是隐私计算是要让数据流通起来,并且保证数据安全,这是最终目的。”王磊说道,“我们希望的商业模式,是对安全结果负责。保证整个数据流通的过程中的安全性,从全链路上降低成本和法律风险,并由于数据价值得到了保障,密态计算技术提供商可以从被保障的数据价值中分得利润。
”
因此,蚂蚁密算希望能够通过多方联动,在构建全产业链数据安全防护的基础上,能够让各方获得一定的利益,从而更好的推动安全技术的投入和支出。
现如今,密态计算已经进入规模化商业应用的前夜。
“蚂蚁密算的使命是通过密算科技推动数据可信流通。”韦韬说道,“科技是最大普惠,但技术通过商业化是最好的服务社会的形式,这是我们成立浙江蚂蚁密算公司的初衷。”
不过,虽然现阶段隐私计算已经在部分场景中已经有了商业化落地应用,但在行业大模型应用场景中,仍处于PoC阶段。
对于密态计算的商业化应用,韦韬认为,隐私计算技术非常像光伏,光伏刚推出来的时候价格昂贵,肯定不是让所有行业全部用上,但高需求行业先用起来后,实现规模化的降低成本,当它降到临界点的时候,对于光伏而言发电成本跟煤电相当的时候,全面大规模展开应用。
同理,隐私计算也一定是从比较高价值的数据,高价值的场景开始来用,但是它解决的问题不是只有高价值数据才有的需求。“当密态计算的成本,降低到数据流通价值的5%,就能够实现规模化推广。”韦韬曾向光锥智能提到。
与此同时,市场化的应用,还需要交给市场化的手段。在密态计算技术走向市场商业化的过程中,韦韬认为可以引入保险机制。
保险公司主要有两个作用,一个是事前,保险公司做独立的第三方,去看所有产品的安全性是不是能达标,并根据实际安全风险状态收取不同费率的保费。第二个,真的出现了黑天鹅事件,事后(保险公司)做风险兜底。
通过这个方式,才能推动整个产业良性地运作起来。只有商业的模式健康运转起来,技术的迭代也才能可持续地健康发展。
随着大模型的大规模商业化落地,数据要素的流通市场也势必会不断扩大。但现在现阶段,隐私计算技术在大模型数据可信流通赛道中,尚属于早期,未来真正的商业化落地,仍需要验证。
但隐私计算就像数据的安全通道,越快打开,大模型的落地效率就会更高。就像蚂蚁集团董事长兼CEO井贤栋此前所比喻的,数据价值就像“自来水”一样,从原来的数据孤岛,像自家水井一样自产自销,走向“桶装水”式的点对点流通。
接下来,大规模数据流转会发展为犹如“城市自来水网”的行业、区域间可信流通,走向未来更广域的可信流通,形成综合水利工程。在此基础上,大模型产业及各种数据要素的应用场景,将都能够充分应用数据要素价值,实现跨行业、跨地域和跨云可信流转和互联互通。