本文转自微信公众号“吉时通信”。
摘要
数据隐私保护是数据要素价值挖掘的前提,在中欧投资协定的大背景下,数据隐私计算将迎来全新的发展机遇和环境。数据要素市场价值挖掘无疑是一个重要的发展方向,无论是个人信息、企业商业数据资源的价值挖掘,要打破“数据孤岛”,首先需要解决数据交换、存储和计算处理过程中的数据泄露的隐患。
国内上一轮大数据浪潮推动了行业普及,让市场认识到了数据的价值,但同时催化了“倒卖数据”的黑产,既保证数据流通,又保护数据隐私成为核心。政策上,中欧投资协定落地,而欧盟数据隐私保护条例GDPR早已实施,有望对我国形成促进作用;技术上,隐私计算将迎来新的发展机遇和环境。
隐私计算结合多方安全计算、联邦学习和可信执行环境等多种技术,在金融、国际贸易、社会治理、社会消费等多个场景开辟更多层次的应用。
在数据要素价值挖掘层面,隐私计算将不仅仅是社会消费(如数字营销)领域发挥作用,结合多方安全计算、联邦学习和可信执行环境等多种技术,针对多种状态数据(包括企业数据、个人终端数据、政府数据),在金融、国际贸易、社会治理等多个应用领域,都将有效打破数据孤岛,发挥数据背后的巨大价值。
隐私计算贯穿整个IaaS基础算力层、BaaS、SaaS服务层,可探索更多新商业模式和领域。
5G时代,大管道作为数据金矿的最基础传输设施,在算力层,隐私计算与云计算同样作为重要的IaaS基础设施,算法层面,隐私计算和AI存在一定的融合空间(如联邦学习与MPC、TEE的深度融合),可以为数据交换、存储和计算协作的可信环境提供一定的算法支撑,在BaaS/SaaS层,隐私计算在数据价值挖掘的环节可以发挥巨大威力,在金融、医疗、科学研究、社会征信、供应链金融、防伪溯源、社会治理等等各个领域提供基于数据分析是应用服务。
数据时代,隐私计算打开数据金矿的一把钥匙,将创造更多的创新服务领域和商业模式。
中欧投资协定的大背景下,中欧双方近年来均致力于数字安全与隐私保护领域的法律法规建设,这将为隐私计算市场提供发展机遇和良好的市场环境。2020年12月30日,中欧投资协定谈判顺利完成。中欧投资协定涉及领域远超越传统双边投资协定,涵盖市场准入承诺、公平竞争规则、可持续发展和争端解决四方面内容。
欧盟一向重视数据安全与隐私保护,为加快构建全国一体化的大数据中心,充分发挥数据要素的市场价值,中国近年来也针对数据安全出台了多项政策法规及指导意见。在中欧投资协定的大背景下,我们认为,数据作为新的市场要素,将催生新的应用场景和市场生态。
投资建议:目前隐私计算在国内尚处发展初期,包括蚂蚁金服、微众银行、华控清交、矩阵元、众安科技、富数科技、翼方健数、洞见科技、摩联科技、冲量科技等均开始发力,可密切关注。
风险提示:隐私计算商业模式落地不及预期;隐私计算相关技术发展不达预期;数据隐私相关政策面临不确定性。
1 核心观点
1.1 核心推荐逻辑
数据隐私保护是数据要素价值挖掘的前提,在中欧投资协定的大背景下,数据隐私计算将迎来全新的发展机遇和环境。数据要素市场价值挖掘无疑是一个重要的发展方向,无论是个人信息、企业商业数据资源的价值挖掘需要先解决数据交换、存储和计算处理过程中的数据泄露的隐患。
隐私计算是打破数据孤岛,同时保证数据隐私的桥梁。基于各类加密算法和技术的安全多方计算、联邦学习和可信执行环境(TEE)等技术手段为数据隐私安全计算提供了一种解决之道。欧盟早在2018年就启动了数据隐私保护条例GDPR,在中欧投资协定的大背景下,两地区的贸易往来合作必然增加,数据作为新的生产要素不容忽视,数据隐私保护和价值挖掘将迎来新的发展机遇和环境。
1.2 我们区别于市场的观点
市场低估了数据隐私计算的市场机会。市场对隐私计算这类新兴加密和算法技术认知不够充分,出于数据隐私保护的担忧,未能充分认识到隐私计算对数据要素市场价值挖掘的关键而重要的推动作用。在隐私计算推动下,数据孤岛将被有效打破,从而挖掘出数据要素巨大的市场价值,创造新的市场空间。
隐私计算结合多方安全计算、联邦学习和可信执行环境等多种技术,在金融、国际贸易、社会治理、社会消费等多个场景开辟更多层次的应用。在数据要素价值挖掘层面,隐私计算将不仅仅是社会消费(如数字营销)领域发挥作用,结合多方安全计算、联邦学习和可信执行环境等多种技术,针对多种状态数据(包括企业数据、个人终端数据、政府数据),在金融、国际贸易、社会治理等多个应用领域,都将有效打破数据孤岛,发挥数据背后的巨大价值。
2 数据隐私加密技术
无论是个人信息、企业商业数据资源的价值挖掘需要先解决数据交换、存储和计算处理过程中的数据泄露的隐患。基于各类加密算法和技术的安全多方计算、联邦学习和可信执行环境(TEE)等技术手段为数据隐私安全计算提供了一种解决之道。
主流的隐私计算计算包括多方安全计算(MPC)、联邦学习和可信执行环境(TEE)等多项技术,根据不同的应用场景,可以将多种技术结合运用。
2.1主流隐私计算技术:MPC、TEE和联邦学习
隐私计算,利用隐私保护的技术,在数据的产生、存储、计算、应用、传输、销毁等信息流程全过程实现隐私保护。简单说,就是为数据计算应用提供隐私保护的技术或软硬件环境。目前业内采用的主流技术包括三类:多方安全计算(MPC)、联邦学习和可信执行环境(TEE)。
多方安全计算(Secure Multi-Party Computation,简称MPC)由图灵奖获得者姚期智院士提出,其提出场景为百万富翁问题:在没有可信第三方的前提下,两个百万富翁如何不泄露自己的真实财产状况来比较谁更有钱。
即无可信第三方情况下,通过多方共同参与,保护数据隐私的情况下完成协同计算。MPC可以在保证各方数据安全的同时,联合使用各方数据来达到特定的效果,从而充分发挥数据的价值。这种方式主要基于密码学的一些隐私技术,包括同态加密(Homomorpgic Encryption)、零知识证明(Zero—Knowledge Proof)等;
联邦机器学习(Federated machine learning/Federated Learning),是一个机器学习框架,在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模;2019年2月谷歌(GOOG.US)宣布实现了全球首个产品级的超大规模移动端分布式机器学习系统,目前已经能够在数千万部手机上运行;
可信执行环境(TEE)基于系统硬件构建一块安全区域,为数据和代码的执行提供一个安全隔离的空间。TEE内存受到硬件隔离保护,可以在保护数据隐私的前提下,对数据进行安全计算和处理,以Intel-SGX、ARM-TrustZone等为代表。
如上所述,MPC、联邦学习和TEE分别从数据加密计算、AI模型训练和硬件环境隔离三个角度解决数据隐私计算问题。在实际应用场景中,可以根据需求将多种隐私计算技术灵活运用。
2.1.1MPC基于加密算法与协议实现数据隐私计算
MPC基于密码学的隐私安全技术,为数据计算提供可信环境。例如,保险业需要一个用户征信联合查询平台来成为合作的基石,它既需要满足同业间的合作需求,又要解决数据隐私问题。
具体需求痛点包括:多个数据方存在合作壁垒、强烈的计算需求和源数据隔离。多方安全计算(MPC)——基于同态加密、零知识证明等密码学算法为多方参与的数据隐私安全计算提供了一种解决之道。比如,基于密码学算法,可以知道小明考试是否及格,但并不会泄露小明的分数;医院直接可以在可信环境下分享患者数据信息实现协同医疗,同时保险机构可以统计用户某项健康数据,但并不会泄露用户其他健康隐私;金融机构可以在可信环境中分享数据,满足风控、征信等方面的数据计算需求。
在MPC应用中,包括各类数字签名(加密算法)和隐私协议(如同态加密和零知识证明等)。下面简单介绍数字签名和零知识证明。
在数字签名中,常用的加密算法总体可以分为两类:单向加密和双向加密,双向加密又分为对称加密和非对称加密。数字签名、信息加密是前后端开发都经常需要使用到的技术,应用场景包括了用户登入、交易、信息通讯、oauth 等等,不同的应用场景也会需要使用到不同的签名加密算法,或者需要搭配不一样的签名加密算法来达到业务目标。
各类加密算法能够确保数字签名的安全,但在实际应用落地中还需要解决一些更深层次的隐私问题。在数据加密状态下进行操作和计算、匿名操作等隐私计算的需求,还需要配合同态加密、零知识证明、环签名等密码学技术和方法。
此外,在计算机网络通信过程中的隐私保护需求日渐显著,于是诞生了像洋葱网络/ I2P网络等匿名网络。随着移动互联网的发展,密钥的安全方面也催生了TEE/SE等可信环境应用场景。
零知识证明(Zero-Knowledge Proof)是麻省理工学院研究人员在 20 世纪 80 年代提出的一种加密方法,是可信计算广泛使用的密码学算法之一。零知识证明或零知识协议是一种基于概率的验证方法,包括两部分:宣称某一命题为真的证明者(prover)和确认该命题确实为真的验证者(verifier)。
顾名思义,零知识证明就是既能充分证明自己是某种权益的合法拥有者,又不把有关的信息泄漏出去,即给外界的“知识”为“零”。零知识证明有三条性质:
(1)完备性。如果证明方和验证方都是诚实的,并遵循证明过程的每一步,进行正确的计算,那么这个证明一定是成功的,验证方一定能够接受证明方;
(2)合理性。没有人能够假冒证明方,使这个证明成功;
(3)零知识性。证明过程执行完之后,验证方只获得了“证明方拥有这个知识”这条信息,而没有获得关于这个知识本身的任何一点信息。
关于零知识证明,一个有意思的案例即“阿里巴巴洞穴的零知识证明”,可以帮助我们理解“零知识证明”的原理。
一天,阿里巴巴被强盗抓住了,强盗向阿里巴巴拷问进入山洞的咒语。阿里巴巴知道,如果把咒语告诉了强盗,那么他会因没有利用价值而被杀死;但如果不说出来,也会被杀死。
怎样才能做到既让他们确信我知道咒语,但又一丁点咒语内容也不泄露给他们呢?这的确是一个令人纠结的问题,但阿里巴巴想了一个好办法,他对强盗说:“你们在离开我一箭远的地方,用弓箭指着我,当你们举起右手我就念咒语打开石门,举起左手我就念咒语关上石门,如果我做不到或逃跑,你们就用弓箭射死我。”
强盗们当然会同意,因为这个方案不仅对他们没有任何损失,而且还能帮助他们搞清楚阿里巴巴到底是不是真的知道咒语这个问题。阿里巴巴也没有损失,因为处于一箭之地的强盗们听不到他念的咒语,不必担心泄露了秘密,同时他又确信自己的咒语有效,也避免被射死。
强盗举起了右手,只见阿里巴巴的嘴动了几下,石门果真打开了,强盗举起了左手,阿里巴巴的嘴动了几下后石门又关上了。强盗还是有点不信,说不准这是巧合呢,他们不断地换着节奏举右手举左手,石门跟着他们的节奏开开关关,最后强盗们相信了阿里巴巴。因此,阿里巴巴既没有告诉强盗进入山洞石门的咒语,同时又向强盗们证明了,他是知道这个咒语的。
零知识证明过程有两个参与方,一方叫证明者,一方叫验证者。证明者掌握着某个秘密,他想让验证者相信他掌握着秘密,但是又不想泄漏这个秘密给验证者。
双方按照一个协议,通过一系列交互,最终验证者会得出一个明确的结论,证明者是或不掌握这个秘密。因此,可信计算正是利用像零知识证明这样的密码学技术可以确保数据隐私的情况下完成数据计算。
2.1.2联邦学习在移动端的潜力凸显
联邦学习(Federated Learning)是一种新兴人工智能技术,在 2016 年由谷歌最先提出,最早用于解决安卓手机终端用户在本地更新模型的问题,目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。
联邦学习可以在不直接访问训练数据的情况下构建机器学习系统,也就是说在数据在本地隐私加密的情况下进行AI模型训练,这有助于确保隐私并降低通信成本。
谷歌发布全球首个产品级移动端分布式机器学习系统,移动端算力被充分调动。2019年2月谷歌宣布实现了全球首个产品级的超大规模移动端分布式机器学习系统,目前已经能够在数千万部手机上运行。
谷歌基于TensorFlow构建了全球首个产品级可扩展的大规模移动端联邦学习系统,目前已在数千万台手机上运行。这些手机能协同学习一个共享模型,所有的训练数据都留在设备端,确保了个人数据安全,手机端智能应用也能更快更低能耗更新。研究人员表示,该系统有望在几十亿部手机上运行。联邦学习能产生更智能的模型,更低的延时和更少的功耗,同时确保用户的隐私。
Google开放的联邦学习算法,使得移动端分布式机器学习成为现实;AI算法分布在大规模的移动端,协同输出一个学习模型,而不必上传用户本地数据。Google的研究团队克服许多算法和研究挑战,使联邦学习成为可能。
诸如随机梯度下降(SGD)之类的优化算法(通常在许多机器学习系统中使用)在大型数据集上运行。在移动端特定环境中,数据以高度异构的方式分布在数百万个移动和蜂窝设备上,这些设备具有明显更高延迟,更低吞吐量的连接,并且只能间歇性地用于训练。
这一切都依赖于联邦学习(FL)方法,联邦是一种分布式机器学习方法,可以对保存在移动电话等设备上的大量分散数据进行训练,是“将代码引入数据,而不是将数据引入代码”的更加通用化的一个实现,并解决了关于隐私、所有权和数据位置等基本问题。
根据谷歌官博介绍,用户的设备会下载一个当前模型,这个模型会从手机数据中学习不断得到改善,然后将变化总结为一个小的关键更新。只有这个关键更新会以加密的方式被传到云端,之后这一更新会在云端迅速被其他用户对共享模型提交的更新平均化(averaged)。简单说,所有的训练数据都留在用户的设备上,而且上传到云端的个别更新也不会存储到云端。谷歌研究人员表示,新方法将机器学习与云端存储数据的需求脱钩,让模型更聪明、延迟更低、更节能,而且保护用户隐私不受威胁。
这一方法还有一个间接好处:除了实现共享模型的更新,用户还能立刻使用改善后的模型,根据个人使用手机方式的不同,得到的体验也会不同。
2.1.3 可信执行环境(TEE)在物联网、可验证计算方面应用广泛
可信执行环境(TEE,Trusted Execution Environment),是Global Platform(GP)提出的概念,主要针对移动设备的开放环境带来的安全问题(用户、服务提供商和软硬件厂商等方面)。TEE是与设备上的Rich OS(通常是Android等操作系统)并存的运行环境,并且给Rich OS提供安全服务。TEE 的实现是基于 ARM TrustZone,具有以下特点:
1)受硬件机制保护:TEE隔离于REE(移动端系统环境)、只能通过特定的入口与TEE通信;
2)快速通信机制:TEE可以访问REE的内存、REE无法访问受硬件保护的TEE内存;
3)可抵御某些基于硬件的攻击。
可以简单将TEE理解为一个隔离的运行环境(软件+硬件),TEE内部API主要包含了密钥管理,密码算法,安全存储,安全时钟资源和服务,还有扩展的可信UI等API。以此实现关键信息数据及计算的隐私保护(比如密钥和签名等)。
TEE将有望增强物联网终端的智能化,使得物联网络具备分布式智能。目前物联网终端的行为决策依靠中心云平台(或者边缘云平台)的控制,其数据处理和M2M交互能力较弱。结合TEE,可利用物联网终端硬件算力,打造分布式智能平台,独立完成一些局域任务。
考虑数据安全和验证的角度,可以结合TEE来增强终端的安全能力。TEE(可信执行环境)内存受到硬件隔离保护,可以在保护数据隐私的前提下,对数据进行安全计算和处理,释放数据市场经济价值。
TEE提供可信环境可作为第三方平台,与区块链等结合,打通链上链下的隐私计算。蚂蚁区块链的 TEE硬件隐私合约链充分利用硬件TEE 技术,为金融级别企业用户提供高效、通用、安全的区块链隐私保护能力。
同时,TEE 合约链的开发者无需具备深厚的密码学背景,便可将已有的智能合约无缝迁移至TEE 合约链平台并通过隐私模型的定义来启用隐私保护功能。TEE 合约链架构在蚂蚁区块链合约平台之上,作为核心组件提供通用高效的隐私保护能力。
在蚂蚁区块链平台通用框架下,TEE 合约链利用 TEE 技术将合约引擎和必要的交易处理以及密码学运算单元集成封装在“TEE 安全区”内,配合一系列严谨的安全协议流程达到隐私保护的目的。
该架构充分利用蚂蚁区块链平台已有的功能特性,最大限度增加了 TEE 合约链与已有蚂蚁区块链平台的兼容性,方便用户开发使用具有隐私保护能力的区块链应用。同时最小化安全可信基,符合安全技术方案设计的原则。
2.2 隐私计算的商业模式与案例分析
当下数据市场面临的最大问题是什么?毫无疑问,就是隐私泄露问题。数据市场将走向何方?数据价值到底该如何释放?全世界都认识到数据的巨大价值,然而现实的一面是机构掌控下的“数据孤岛”,另一方面是数据泄露的残酷事实。这些因素构成了数据市场发展的痛点和瓶颈。
面对当下的数据“痛点”,隐私计算是解决数据隐私之痛、释放数据价值的关键一环。隐私计算可以确保数据隐私保护的情况下完成数据协同计算,数据掌控者不再担心数据泄露,从而打破数据孤岛,用户对数据隐私泄露的担忧也得到一定程度解决。这会极大促进数据交换的意愿和数据价值挖掘的力度,释放数据市场的巨大价值。
2.2.1 隐私计算已成为挖掘数据要素市场价值的利器
隐私计算贯穿整个IaaS基础算力层、BaaS、SaaS服务层,可探索更多新商业模式和领域。
5G时代,大管道作为数据金矿的最基础传输设施,在算力层,隐私计算与云计算同样作为重要的IaaS基础设施,算法层面,隐私计算和AI存在一定的融合空间(如联邦学习与MPC、TEE的深度融合),可以为数据交换、存储和计算协作的可信环境提供一定的算法支撑,在BaaS/SaaS层,隐私计算在数据价值挖掘的环节可以发挥巨大威力,在金融、医疗、科学研究、社会征信、供应链金融、防伪溯源、社会治理等等各个领域提供基于数据分析是应用服务。
数据时代,隐私计算打开数据金矿的一把钥匙,将创造更多的创新服务领域和商业模式。
基于隐私计算平台,可开辟新的服务模式。基于隐私计算平台,在数据存储、流转、交易和计算处理过程中提供可信平台或服务,将打造一种新的服务模式。当然,针对不同的场景,必须将MPC、联邦学习和TEE等多种技术的融合应用。
我们可以畅想,物联网时代边缘终端产生的海量数据将在终端得到安全存储和隐私保护,各类联邦算法将在终端用户授权下,以分布式的方式在终端完成机器学习,输出学习模型而非终端隐私数据,这些模型在网络中完成协同建模。中心云已有的托管数据也将在安全可信、充分保护隐私的环境中进行交换和协同计算。
一个从终端到云的数据价值交换系统将应运而生,就像运营商网络之于信息流转,可信计算系统充当了数据价值交换的“运营商”。系统中,数据协同计算、节点间数据交换都需要可信计算实现隐私保护和数据安全。可以预见,依托这样的平台系统,类似互联网生态的各类数据应用市场将不断涌现,打造数据红利时代。
我们判断,未来的数据市场,将会出现一批依托可信计算的平台型公司,充当数据交换的“运营商”。就像电信运营商之于信息,这些数据交换“运营商”将充当数据存储、交换和价值挖掘的核心媒介。信息流转于电信运营商的网络中,数据流转于这些平台上,数据市场开辟出像通信领域一样璀璨多元的创新市场。
2.2.2隐私计算案例分析
案例1):微众银行联合营销中的隐私保护;
广告主(如微众银行的某个信贷产品)在营销过程中,常常需要在媒体广告平台(如腾讯)投放产品广告,这时往往面临着隐私保护的难题。为了优化广告投放的效果,广告主需要向广告平台回传尽可能多的后端用户转化数据,但是,由于用户隐私保护问题,广告主不能直接将用户数据分享给广告平台,而且数据回传过程也存在着泄露可能性。
丰富多样的其他数据(来自其它机构的数据)以优化用户画像更是由于隐私法规限制和商业考虑,而限制了更精准投放。
微众银行将联邦学习引入智能营销场景,形成“联邦广告”和“联邦推荐”方案,在保障隐私安全的同时,大幅提升在线广告拉新和存量客户促活的效率。基于联邦广告方案,广告主可以将广告点击和转化数据利用“差分隐私”(differential privacy)进行混合加噪,然后再做数据加密、与广告平台进行加密条件下的联合建模。
在这个过程中,广告主的转化数据、广告平台的用户标签都留在原地,而广告模型的效果得到优化,从而提升广告投放的效率。
基于联邦推荐方案,广告主与第三方数据源可以在各自数据不出本地的条件下一起协同构建推荐系统,通过参与方之间交换加密参数的方式避免原始训练数据泄露和传输。在保证隐私的前提下,联邦广告和联邦推荐实现了高效贷款广告投放、理财产品推荐,广告效率提高20%,理财产品推荐效率提升30%,有效地实现了用户拉新促活的目标。
案例2):蚂蚁链摩斯多方安全计算平台助力银行联合风控;
蚂蚁链摩斯多方安全计算平台基于多方安全计算、隐私保护、区块链等技术,实现数据可用不可见,解决企业数据协同计算过程中的数据安全和隐私保护问题,助力机构安全高效地完成联合风控、联合营销、联合科研等跨机构数据合作任务,驱动业务增长。
根据蚂蚁链官网介绍,富民银行利用摩斯安全计算平台,和合作方实现了多方联合风控,在保证数据安全的同时,实现模型预测效能提升25%。有效降低业务风险和不良资产率。
3 中欧投资协定将为隐私计算发展铺平政策道理
3.1 中欧投资协定将进一步推动数据要素市场发展
2020年12月30日,中欧投资协定谈判顺利完成。中欧投资协定涉及领域远超越传统双边投资协定,涵盖市场准入承诺、公平竞争规则、可持续发展和争端解决四方面内容。据统计,中国人口目前约14亿,欧盟人口为4.4亿(2020年10月统计数据),中欧人口总数超18亿,占世界人口比例超24%。中欧投资协定的签订将惠及全球近四分之一人口。
欧盟曾连续16年保持中国第一大贸易伙伴和进口来源地,自2001年中国加入世贸组织以来,中欧货物贸易从766亿美元增长至2019年7051亿美元。2020年1至11月,中欧贸易在疫情中逆势增长3.5%,显示出强大韧性。
2020年10月,中共中央办公厅、国务院办公厅印发了《深圳建设中国特色社会主义先行示范区综合改革试点实施方案(2020-2025年)》。《方案》提出,加快培育数据要素市场,率先完善数据产权制度,探索数据产权保护和利用新机制,建立数据隐私保护制度。试点推进政府数据开放共享。支持建设粤港澳大湾区数据平台,研究论证设立数据交易市场或依托现有交易场所开展数据交易。
欧盟向来重视数据隐私保护和数据市场价值,以仅有130多万人口的爱沙尼亚为例,在数据隐私保护的大环境下,通过挖掘数据市场价值,积极推动区块链等数字化进程,成功转型数字化国家。爱沙尼亚人无论是报税、投票都不用踏出家门一步,几乎99%的公共服务都能在家上网完成。
1994年爱沙尼亚通过了《爱沙尼亚信息政策原则》初稿,1996年发起“虎跃行动(the tiger leap initial)”开始全国范围内发展ICT基础设施,增强数字信息教育。此后,基于区块链、ICT等技术,通过一系列数字项目推动了整个社会的数字化转型,使得爱沙尼亚成为享誉全球的数字强国。
2000年,爱沙尼亚成为全球首个将互联网使用定位基本人权的国家,爱沙尼亚通过法案赋予电子签名和手写签名同等的法律效力,使得爱沙尼亚迈入了“无纸化”时代。2014年,爱沙尼亚政府启动了“数字居民”(e-residency)项目,通过这个项目,外国人可以在线开设银行账户、注册公司。
目前爱沙尼亚已有超过62000外国人成为数字居民,共有数字居民公司10000家。数字国家还给创业公司提供了孵化的土壤,诸如skype、transferwise、hotmail这些颇受全球欢迎的互联网项目就诞生在爱沙尼亚,目前共有650家创业公司(ICT领域)。
在中欧投资协定的大背景下,我们认为,数据作为新的市场要素,将催生新的应用场景和市场生态。
3.2 政策法规日益完善为隐私计算提供发展机遇
为促成中欧投资协定,中欧双方近年来均致力于数字安全与隐私保护领域的法律法规建设,这将为隐私计算市场提供发展机遇和良好的市场环境。2019年,中欧双方在第二十一次中欧领导人会晤联合声明中设定了“在2020年达成投资协定”的目标;2020年以来,第二十二次中欧领导人会晤顺利推进,数字领域高层对话机制成立,为中欧全面战略伙伴关系发展注入了新的动力。
欧盟一向重视数据安全与隐私保护,1995年通过的《数据保护指令》是欧盟隐私和人权法的重要组成部分。继2018年颁布《通用数据保护条例》(GDPR)之后,欧盟又于2020年公布《数字服务法案》(DSA)与《数字市场法案》(DMA),分别从企业义务和反托拉斯的角度对数字市场予以规制,强化监管及违法处罚力度,力图维护数字市场的有序竞争和数据安全。
为加快构建全国一体化的大数据中心,充分发挥数据要素的市场价值,中国近年来也针对数据安全出台了多项政策法规及指导意见。
以中共中央、国务院于2020年4月9日出台的《关于构建更加完善的要素市场化配置体制机制的意见》为指导,各部门积极推进数据分类分级安全保护制度的建设工作,强调“对政务数据、企业商业秘密和个人数据的保护”,建立健全数据产权交易和行业自律机制,引导要素向先进生产力集聚。
其中,法律(草案)主要从网络安全、数据安全和个人信息保护等角度,明确了企业在收集、使用用户数据时的权利和义务;相关部门出台的各指导意见,主要从网络安全等级保护、工业互联网数据分级等角度,进一步细化了企业数据安全工作的基本原则和主体责任。
3.3 隐私计算发展面临的瓶颈与解决方向
隐私计算作为新的技术,其发展面临如下几个问题:
1)技术性能和扩展性瓶颈需要从硬件构架和算法优化方面进一步突破:
以MPC中常用到的同态加密算法为例,为保护数据隐私需要加密算法配合,因此必然以牺牲整个计算过程的性能为代价,其计算复杂度显然远高于明文运算。与明文运算相比,密文同态运算超过4-5个数量级。
在扩展性方面,面对不同是数据运算需求,如何深度兼容加法同态加密和乘法同态加密也存在技术上的瓶颈。由于数据计算场景的复杂性,如何从硬件以及算法的角度提示系统的性能和扩展性已经成为隐私计算需攻克的重要瓶颈。
去年底,阿里安全双子座实验室发表的研究的论文《Pegasus(飞马)同态密码上的多项式与非多项式计算》入选IEEE Symposium on Security and Privacy (S&P),这也是中国工业界在S&P顶会上首次实现了第一论文的突破。
论文提出对全同态加密功能进行了重要扩展的一种方法,扩展后的加密计算速度比当前最好的同态加密计算方法快64倍,密钥体积却小2个数量级。加密计算完成的时间由几小时缩短到几分钟就,密钥内存占据空间由100G缩小到1G。基于“飞马”的技术方案,完全可以使用普通电脑、甚至手机进行全同态加密的密钥传输、储存以及加密计算。
2)边缘设备硬件和专用芯片构架将成为解决复杂隐私计算场景的利器:
在联邦学习中要用到复杂的AI算法,AI算法训练与计算经常涉及上亿的参数,这些参数的计算需要大量的计算能力,目前在深度学习领域,边缘设备如GPU计算已经成为主流。目前,主流的GPU具有强大的计算能力和内存带宽,同时GPU的thousands of cores的并行计算能力也是一大优势。
只要数据足够小,就适合在一台GPU性能优于其它架构的机器上运行,因为它不具备处理网络开销问题的功能,可以充分利用GPU的优势为数学运算。由于所有的数据集足够小,可以适应内存,网络成为了分布式实现的瓶颈,而移动端本地GPU没有这样的瓶颈,得到了两全其美。
针对联邦学习算法,谷歌还专门为加速深层神经网络运算能力而研发的一款芯片——TPU。相对于 CPU 和 GPU 的随时间变化的优化方法(高速缓存、无序执行、多线程、多处理、预取等),这种 TPU 的确定性的执行模型(deterministic execution model)能更好地匹配其神经网络应用的 99% 的响应时间需求。因此,尽管TPU 有极大的 MAC 和大内存,但却相对小和低功耗。
由此可见,边缘设备和专用芯片构架将成为解决复杂隐私计算应用场景的重要突破口。
此外,如何将多种算法、技术和硬件融合,既针对不同场景推出相应的解决方案,又能够将隐私计算平台化,解决资源复用的问题,亦是隐私计算行业面临的重要课题。
4 投资建议
区块链技术与隐私计算因其对密码学的依赖,去中心化的特点而具有天生的相关性。早在2016-2017年,矩阵元、蚂蚁金服、微众银行等企业就将隐私计算作为重要方向,随着2018年欧盟GDPR的落地,数据隐私监管变得原来越严厉,关注隐私计算赛道的企业开始增加,时至今日,一级市场此类企业正快速出现,2020年正成为隐私计算元年。
从投资角度看,目前隐私计算尚处于技术提升期,还未形成新的商业模式,但随着Gartner将其纳入2021年重点深挖的9项技术之一,隐私计算在二级市场风口日益临近。
2020年12月21日,中国信息通讯研究院联合50多家企业成立公益性合作平台“隐私计算联盟”,优刻得、同盾科技等上市公司在列,而一级市场中包括蚂蚁金服、微众银行、华控清交、矩阵元、众安科技、富数科技、翼方健数、洞见科技、摩联科技、冲量科技等均开始发力,投资者可密切关注。
风险提示
隐私计算商业模式落地不及预期;隐私计算相关技术发展不达预期;数据隐私相关政策面临不确定性。
(编辑:李均柃)